编码的工作原理
UTF-8
可变长度:ASCII用1字节,拉丁/希腊文用2字节,多数CJK用3字节,表情和稀有字符用4字节。每字节的前导位表示其角色:
0xxxxxxx-- single byte (ASCII)110xxxxx 10xxxxxx-- 2 bytes1110xxxx 10xxxxxx 10xxxxxx-- 3 bytes11110xxx 10xxxxxx 10xxxxxx 10xxxxxx-- 4 bytes
The grey bits are structure; the blue bits carry the code point.
UTF-16
基本多文种平面(U+0000到U+FFFF)的字符固定2字节,包括所有常用CJK。U+FFFF以上的字符使用代理对(4字节)。
GB2312
1980年的传统中文编码。将约7000个简体中文字符映射为2字节码。ASCII字符用1字节。此工具显示一组常用字符的GB2312值。
另见
- Character Converter ——繁简中文字符转换