编码的工作原理

UTF-8

可变长度:ASCII用1字节,拉丁/希腊文用2字节,多数CJK用3字节,表情和稀有字符用4字节。每字节的前导位表示其角色:

  • 0xxxxxxx -- single byte (ASCII)
  • 110xxxxx 10xxxxxx -- 2 bytes
  • 1110xxxx 10xxxxxx 10xxxxxx -- 3 bytes
  • 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx -- 4 bytes

The grey bits are structure; the blue bits carry the code point.

UTF-16

基本多文种平面(U+0000到U+FFFF)的字符固定2字节,包括所有常用CJK。U+FFFF以上的字符使用代理对(4字节)。

GB2312

1980年的传统中文编码。将约7000个简体中文字符映射为2字节码。ASCII字符用1字节。此工具显示一组常用字符的GB2312值。

另见