常见的字符编码方式

把客观世界的信息存入计算机中通常需要有一个编码的过程。例如对于物理体系，一般需要对原子、轨道等基矢进行编码，之后才能进行计算，参考这篇：方格子模型在实空间中的哈密顿量形式。不同的编码方式对结果没有本质上的影响。

本篇讲的是字符的编码方式。常见的字符编码方式有：ASCII、GB2312、GBK、GB18030、UTF8。目前用的比较多的是GBK和UTF8。

一、编码的大小

ASCII 为1个字节（1 Byte，8 bits），最高位是0。
GB2312 为1~2个字节（1~2 Byte），共收录了6763个汉字。
GBK 为1~2个字节（1~2 Byte），共收录了21003个汉字，包含繁体字等。
GB18030 为1~4个字节（1~4 Byte），共收录了70244个汉字，包含少数民族文字等。
UTF8 为1~4个字节（1~4 Byte），是通用的编码方式。

大多数网页采用的是UTF8编码，所以网页源码一般都有<meta charset="UTF-8">的标签。

Python查看字符编码的例子：

"""
This code is supported by the website: https://www.guanjihuan.com
The newest version of this code is on the web page: https://www.guanjihuan.com/archives/23000
"""


string_array = ['关', '。', '3', '.']

for string in string_array:
    # 编码
    gb2312 = string.encode(encoding="gb2312")
    gbk = string.encode(encoding="gbk")
    gb18030 = string.encode(encoding="gb18030")
    uft8 = string.encode(encoding="utf-8")

    # 查看
    print('字符串 =', string, ' | 数据类型 =', type(string), ' | 长度 =', len(string))
    print('gb2312编码 =', gb2312, ' | 数据类型 =', type(gb2312), ' | 长度 =', len(gb2312))
    print('gbk编码 =', gbk, ' | 数据类型 =', type(gbk), ' | 长度 =', len(gbk))
    print('gb18030编码 =', gb18030, ' | 数据类型 =', type(gb18030), ' | 长度 =', len(gb18030))
    print('utf8编码 =', uft8, ' | 数据类型 =', type(uft8), ' | 长度 =', len(uft8))
    print()


# 乱码例子
string = '关关'
uft8 = string.encode(encoding="utf-8")
new_string_1 = uft8.decode(encoding="utf-8")
new_string_2 = uft8.decode(encoding="gbk")
print("使用utf-8解码utf-8编码的数据 =", new_string_1)
print("使用gbk解码utf-8编码的数据 =", new_string_2)

运行结果：

字符串 = 关  | 数据类型 = <class 'str'>  | 长度 = 1
gb2312编码 = b'\xb9\xd8'  | 数据类型 = <class 'bytes'>  | 长度 = 2
gbk编码 = b'\xb9\xd8'  | 数据类型 = <class 'bytes'>  | 长度 = 2
gb18030编码 = b'\xb9\xd8'  | 数据类型 = <class 'bytes'>  | 长度 = 2
utf8编码 = b'\xe5\x85\xb3'  | 数据类型 = <class 'bytes'>  | 长度 = 3

字符串 = 。  | 数据类型 = <class 'str'>  | 长度 = 1
gb2312编码 = b'\xa1\xa3'  | 数据类型 = <class 'bytes'>  | 长度 = 2
gbk编码 = b'\xa1\xa3'  | 数据类型 = <class 'bytes'>  | 长度 = 2
gb18030编码 = b'\xa1\xa3'  | 数据类型 = <class 'bytes'>  | 长度 = 2
utf8编码 = b'\xe3\x80\x82'  | 数据类型 = <class 'bytes'>  | 长度 = 3

字符串 = 3  | 数据类型 = <class 'str'>  | 长度 = 1
gb2312编码 = b'3'  | 数据类型 = <class 'bytes'>  | 长度 = 1
gbk编码 = b'3'  | 数据类型 = <class 'bytes'>  | 长度 = 1
gb18030编码 = b'3'  | 数据类型 = <class 'bytes'>  | 长度 = 1
utf8编码 = b'3'  | 数据类型 = <class 'bytes'>  | 长度 = 1

字符串 = .  | 数据类型 = <class 'str'>  | 长度 = 1
gb2312编码 = b'.'  | 数据类型 = <class 'bytes'>  | 长度 = 1
gbk编码 = b'.'  | 数据类型 = <class 'bytes'>  | 长度 = 1
gb18030编码 = b'.'  | 数据类型 = <class 'bytes'>  | 长度 = 1
utf8编码 = b'.'  | 数据类型 = <class 'bytes'>  | 长度 = 1

使用utf-8解码utf-8编码的数据 = 关关
使用gbk解码utf-8编码的数据 = 鍏冲叧

可以看出：