字符集编码全方位解析

是时候了解关于字符集编码了!!!

ASCII

最早计算机刚出世时,只有一ASCII编码方式, American Strand Code For Information Interchange , ASCII 使用7位 标识一个字符, 对于只认识 0 1 的计算机来说, ASCII 可以记录 2^7 个字符, 针对欧美国家来说, abc… 再加上一些运算符号 ,ASCII足够用了

但是问题来了,不光是美国,像法国等国家也普及计算机,很快ASCII就不够了

ISO-8859-1

于是 ISO-8859 出现了, 它使用8 位 表示一个字符, 而且完全兼容ASCII编码表
ISO-8859-1相对于ASCII有两个优点:

  • ISO-8859-1 可以表示 2^8个字符, 对ASCII
  • ISO-8859-1 使用8位表示一个字符, 这使得他可以完全使用每个字节的每一位

然后这还是仅仅对西欧国家而言, 后来计算机普及到了亚洲

gb2312

对我们国家来说,我们同样需要一种编码表,让计算机认识我们的汉字,于是 中华人民共和国 指定了gb2312 , 国标2312 , 它使用两个字节表示一个汉字, 容纳了几千个常用的汉字

但是问题并没有打住,gb2312 并没有包含极少数的生僻字

gbk

gbk编码表弥补了 gb2312并不包含极少数的生僻字的现状

然而,gbk依然不能表示全部的中国文字

于是:

gb18030

gb18030 的扩展,使他成为了最完整的汉字的编码集

但是, 这却仅仅是对大陆而言

Big5

我们的宝岛台湾仍然使用 繁体字, 他们的编码表是 big5

随着计算机的全球化,于是国际标准化组织出现了,他们想统一世界上的编码方式

unicode

国际标准化组织对全世界的编码方式进行了汇总, unicode 理论上是可以表示世界上全部的符号的, 它统一使用两个字节表示一个字符, 算算看,他可以表示 256^256个字符

现在unnicode的出现,不再担心不能表示全所有的字符了,但是问题又来了,对于原来的欧美国家来说, 本来一个ISO-8859-1 就够他们使用的,结果来个unicode, 缓存容量急剧上升,这是个不好的事情, 于是主角来了

UTF(Unicode translation format)

UTF 有三个分支, UTF-8 UTF-16 UTF-32;

其中UTF-8 使用的变长的字节表示 , 也就是说,假如是当前的字符是a, 它会使用一个字节表示, 假如是汉字,他使用三个字节表示 .

UTF-16 和 unicode 一样的都是使用两个字节

UTF和Unicode的关系 Unicode是一种编码方式,而utf是一种存储格式

比如说我们的文件是utf-8这种存储格式的, 即传进去的数据都是用utf-8


磁盘上文件都是有自己的存储格式的, 比如常用的文本文件的存储格式都是utf-8

如下图:我们想实现 数据从源文件拷贝到目标文件

假如源文件的存储方式是utf-8, 但是我们使用ISO-8859-1对它进行解码, ISO-8859-1碰到一个字节就认为他是一个字符,这显然和utf-8的动态编码相冲突, 因此我们解码得到的结果无异于全是乱码

紧接着,我们使用ISO-8859-1对得到的乱码,进行编码,同样对于ISO-8859-1来说,他是认识这些乱码的,而且ISO-8859-1并没有和utf-8一样充分了利用了每一个字节的每一位,于是它把他们按位编码会数据原始的状态

在然后,我们把编码后的数据写到 用uft-8存储的目标文件,对于目标文件来说,得到的数据就是源文件中编码形态 故不会出现乱码


如果我们想用 utf-16类型的编码器,对 utf-8类型的文件进行编解码呢?

结果要么会报错,要么就行出异常MalformedInputException 一个难看的参数

试想,如果utf-8存储格式的文件中, 只有一个数据 1, 他就是1字节, 而utf-16默认是两个字节, 编码后的结果也全部是FEFF0031这样的, 对于utf-16来说,他是无法对1进行解码的,直接会报错


源文件和目标文件的 存储格式也要相同,这决定了他们对数据字节的划分不同,得到的结果自然不同