UNICODE、GB18030、ASCII编码

UNICODE、GB18030、ASCII编码1 GB18030 编码 GB18030 编码采用单字节 双字节 四字节分段编码方案 具体码位见下文

大家好,欢迎来到IT知识分享网。

1、GB18030 编码

GB18030编码采用单字节、双字节、四字节分段编码方案,具体码位见下文。GB18030向下兼容GBK和GB2312编码。

国家标准GB18030-2005《信息技术 中文编码字符集》是我国继GB2312-1980和GB13000-1993之后最重要的汉字编码标准,是我国计算机系统必须遵循的基础性标准之一。 GB18030有两个版本:GB18030-2000和GB18030-2005。GB18030-2000是GBK的取代版本,它的主要特点是在GBK基础上增加了CJK统一汉字扩充A的汉字。GB18030-2005的主要特点是在GB18030-2000基础上增加了CJK统一汉字扩充B的汉字。

GB18030-2000编码标准《信息技术 汉字编码字符集 基本集的扩充》是由信息产业部和国家质量技术监督局在2000年3月17日联合发布的,并且将作为一项国家标准在2001年的1月正式强制执行。GB18030-2000仅规定了常用非汉字符号和27533个汉字(包括部首、部件等)的编码。

GB18030-2005《信息技术 中文编码字符集》是以汉字为主并包含多种我国少数民族文字的超大型中文编码字符集,其中收入汉字70000余个。在GB18030-2000的基础上增加了42711个汉字和多种我国少数民族文字的编码(如藏、蒙古、傣、彝、朝鲜、维吾尔文等)。增加的这些内容是推荐性的,原GB18030-2000中的内容是强制性的,市场上销售的产品必须符合。故GB18030-2005为部分强制性标准,自发布之日起代替GB18030-2000。

GB18030-2000字汇

GB18030-2000标准收录的字符分别以单字节、双字节和四字节编码。

GB18030-2005字汇

GB18030-2005标准收录的字符分别以单字节、双字节或四字节编码。

GB18030-2000汉字

如下表所示,GB18030-2000收录了27533个汉字:
类别
码位范围
码位数
字符数
字符类型
双字节部分
第一字节0xB0-0xF7
6768
6763
汉字
第二字节0xA1-0xFE
第一字节0x81-0xA0
6080
6080
汉字
第二字节0x40-0xFE
第一字节0xAA-0xFE
8160
8160
汉字
第二字节0x40-0xA0
四字节部分
第一字节0x81-0x82
6530
6530
CJK统一汉字扩充A
第二字节0x30-0x39
第三字节0x81-0xFE
第四字节0x30-0x39
27533就是6763+6080+8160+6530。双字节部分的6763+6080+8160=21003个汉字就是GBK的21003个汉字。
在Unicode中,CJK统一汉字扩充A有6582个汉字,为什么这里只有6530个汉字?
这是因为在GBK时代,双字节部分已经收录过CJK统一汉字扩充A的52个汉字,所以还余6530个汉字。

GB18030-2005汉字

如下表所示,GB18030-2005收录了70244个汉字:
类别
码位范围
码位数
字符数
字符类型
双字节部分
第一字节0xB0-0xF7
6768
6763
汉字
第二字节0xA1-0xFE
第一字节0x81-0xA0
6080
6080
汉字
第二字节0x40-0xFE
第一字节0xAA-0xFE
8160
8160
汉字
第二字节0x40-0xA0
四字节部分
第一字节0x81-0x82
6530
6530
CJK统一汉字扩充A
第二字节0x30-0x39
第三字节0x81-0xFE
第四字节0x30-0x39
第一字节0x95-0x98
42711
42711
CJK统一汉字扩充B
第二字节0x30-0x39
第三字节0x81-0xFE
第四字节0x30-0x39
70244就是6763+6080+8160+6530+42711。

GB18030码位分配

GB18030编码采用单字节、双字节和四字节三种方式对字符编码。

  • 单字节部分采用GB/T 11383的编码结构与规则,使用0x00至0x7F码位(对应ASCII码位)。
  • 双字节部分,首字节码位从0x81至0xFE,尾字节码位分别是0x40至0x7E和0x80至0xFE。
  • 四字节部分采用GB/T 11383未采用的0x30到0x39作为对双字节编码扩充的后缀,这样扩充的四字节编码,其范围为0x到0xFE39FE39。其中第一、三个字节编码码位均为0x81至0xFE,第二、四个字节编码码位均为0x30至0x39。

2、UNICODE

Unicode 字符编码表|汉字Unicode编码的区间为:0x4E00→0x9FA5(转)

十进制 十六进制  字符数 编码分类(中文) 编码分类(英文)
起始 终止 起始 终止 (个)    
0 127 0000 007F 128 C0控制符及基本拉丁文 C0 Control and Basic Latin
128 255 0080 00FF 128 C1控制符及拉丁文补充-1 C1 Control and Latin 1 Supplement
256 383 0100 017F 128 拉丁文扩展-A Latin Extended-A
384 591 0180 024F 208 拉丁文扩展-B Latin Extended-B
592 687 0250 02AF 96 国际音标扩展 IPA Extensions
688 767 02B0 02FF 80 空白修饰字母 Spacing Modifiers
768 879 0300 036F 112 结合用读音符号 Combining Diacritics Marks
880 1023 0370 03FF 144 希腊文及科普特文 Greek and Coptic
1024 1279 0400 04FF 256 西里尔字母 Cyrillic
1280 1327 0500 052F 48 西里尔字母补充 Cyrillic Supplement
1328 1423 0530 058F 96 亚美尼亚语 Armenian
1424 1535 0590 05FF 112 希伯来文 Hebrew
1536 1791 0600 06FF 256 阿拉伯文 Arabic
1792 1871 0700 074F 80 叙利亚文 Syriac
1872 1919 0750 077F 48 阿拉伯文补充 Arabic Supplement
1920 1983 0780 07BF 64 马尔代夫语 Thaana
1984 2047 07C0 07FF 64 西非書面語言 N’Ko
2048 2143 0800 085F 96 阿维斯塔语及巴列维语 Avestan and Pahlavi
2144 2175 0860 087F 32 Mandaic Mandaic
2176 2223 0880 08AF 48 撒马利亚语 Samaritan
2304 2431 0900 097F 128 天城文书 Devanagari
2432 2559 0980 09FF 128 孟加拉语 Bengali
2560 2687 0A00 0A7F 128 锡克教文 Gurmukhi
2688 2815 0A80 0AFF 128 古吉拉特文 Gujarati
2816 2943 0B00 0B7F 128 奥里亚文 Oriya
2944 3071 0B80 0BFF 128 泰米尔文 Tamil
3072 3199 0C00 0C7F 128 泰卢固文 Telugu
3200 3327 0C80 0CFF 128 卡纳达文 Kannada
3328 3455 0D00 0D7F 128 德拉维族语 Malayalam
3456 3583 0D80 0DFF 128 僧伽罗语 Sinhala
3584 3711 0E00 0E7F 128 泰文 Thai
3712 3839 0E80 0EFF 128 老挝文 Lao
3840 4095 0F00 0FFF 256 藏文 Tibetan
4096 4255 1000 109F 160 缅甸语 Myanmar
4256 4351 10A0 10FF 96 格鲁吉亚语 Georgian
4352 4607 1100 11FF 256 朝鲜文 Hangul Jamo
4608 4991 1200 137F 384 埃塞俄比亚语 Ethiopic
4992 5023 1380 139F 32 埃塞俄比亚语补充 Ethiopic Supplement
5024 5119 13A0 13FF 96 切罗基语 Cherokee
5120 5759 1400 167F 640 统一加拿大土著语音节 Unified Canadian Aboriginal Syllabics
5760 5791 1680 169F 32 欧甘字母 Ogham
5792 5887 16A0 16FF 96 如尼文 Runic
5888 5919 1700 171F 32 塔加拉语 Tagalog
5920 5951 1720 173F 32 Hanunóo Hanunóo
5952 5983 1740 175F 32 Buhid Buhid
5984 6015 1760 177F 32 Tagbanwa Tagbanwa
6016 6143 1780 17FF 128 高棉语 Khmer
6144 6319 1800 18AF 176 蒙古文 Mongolian
6320 6399 18B0 18FF 80 Cham Cham
6400 6479 1900 194F 80 Limbu Limbu
6480 6527 1950 197F 48 德宏泰语 Tai Le
6528 6623 1980 19DF 96 新傣仂语 New Tai Lue
6624 6655 19E0 19FF 32 高棉语记号 Kmer Symbols
6656 6687 1A00 1A1F 32 Buginese Buginese
6688 6751 1A20 1A5F 64 Batak Batak
6784 6895 1A80 1AEF 112 Lanna Lanna
6912 7039 1B00 1B7F 128 巴厘语 Balinese
7040 7088 1B80 1BB0 49 巽他语 Sundanese
7104 7167 1BC0 1BFF 64 Pahawh Hmong Pahawh Hmong
7168 7247 1C00 1C4F 80 雷布查语 Lepcha
7248 7295 1C50 1C7F 48 Ol Chiki Ol Chiki
7296 7391 1C80 1CDF 96 曼尼普尔语 Meithei/Manipuri
7424 7551 1D00 1D7F 128 语音学扩展 Phonetic Extensions
7552 7615 1D80 1DBF 64 语音学扩展补充 Phonetic Extensions Supplement
7616 7679 1DC0 1DFF 64 结合用读音符号补充 Combining Diacritics Marks Supplement
7680 7935 1E00 1EFF 256 拉丁文扩充附加 Latin Extended Additional
7936 8191 1F00 1FFF 256 希腊语扩充 Greek Extended
8192 8303 2000 206F 112 常用标点 General Punctuation
8304 8351 2070 209F 48 上标及下标 Superscripts and Subscripts
8352 8399 20A0 20CF 48 货币符号 Currency Symbols
8400 8447 20D0 20FF 48 组合用记号 Combining Diacritics Marks for Symbols
8448 8527 2100 214F 80 字母式符号 Letterlike Symbols
8528 8591 2150 218F 64 数字形式 Number Form
8592 8703 2190 21FF 112 箭头 Arrows
8704 8959 2200 22FF 256 数学运算符 Mathematical Operator
8960 9215 2300 23FF 256 杂项工业符号 Miscellaneous Technical
9216 9279 2400 243F 64 控制图片 Control Pictures
9280 9311 2440 245F 32 光学识别符 Optical Character Recognition
9312 9471 2460 24FF 160 封闭式字母数字 Enclosed Alphanumerics
9472 9599 2500 257F 128 制表符 Box Drawing
9600 9631 2580 259F 32 方块元素 Block Element
9632 9727 25A0 25FF 96 几何图形 Geometric Shapes
9728 9983 2600 26FF 256 杂项符号 Miscellaneous Symbols
9984 10175 2700 27BF 192 印刷符号 Dingbats
10176 10223 27C0 27EF 48 杂项数学符号-A Miscellaneous Mathematical Symbols-A
10224 10239 27F0 27FF 16 追加箭头-A Supplemental Arrows-A
10240 10495 2800 28FF 256 盲文点字模型 Braille Patterns
10496 10623 2900 297F 128 追加箭头-B Supplemental Arrows-B
10624 10751 2980 29FF 128 杂项数学符号-B Miscellaneous Mathematical Symbols-B
10752 11007 2A00 2AFF 256 追加数学运算符 Supplemental Mathematical Operator
11008 11263 2B00 2BFF 256 杂项符号和箭头 Miscellaneous Symbols and Arrows
11264 11359 2C00 2C5F 96 格拉哥里字母 Glagolitic
11360 11391 2C60 2C7F 32 拉丁文扩展-C Latin Extended-C
11392 11519 2C80 2CFF 128 古埃及语 Coptic
11520 11567 2D00 2D2F 48 格鲁吉亚语补充 Georgian Supplement
11568 11647 2D30 2D7F 80 提非纳文 Tifinagh
11648 11743 2D80 2DDF 96 埃塞俄比亚语扩展 Ethiopic Extended
11776 11903 2E00 2E7F 128 追加标点 Supplemental Punctuation
11904 12031 2E80 2EFF 128 CJK 部首补充 CJK Radicals Supplement
12032 12255 2F00 2FDF 224 康熙字典部首 Kangxi Radicals
12272 12287 2FF0 2FFF 16 表意文字描述符 Ideographic Description Characters
12288 12351 3000 303F 64 CJK 符号和标点 CJK Symbols and Punctuation
12352 12447 3040 309F 96 日文平假名 Hiragana
12448 12543 30A0 30FF 96 日文片假名 Katakana
12544 12591 3100 312F 48 注音字母 Bopomofo
12592 12687 3130 318F 96 朝鲜文兼容字母 Hangul Compatibility Jamo
12688 12703 3190 319F 16 象形字注释标志 Kanbun
12704 12735 31A0 31BF 32 注音字母扩展 Bopomofo Extended
12736 12783 31C0 31EF 48 CJK 笔画 CJK Strokes
12784 12799 31F0 31FF 16 日文片假名语音扩展 Katakana Phonetic Extensions
12800 13055 3200 32FF 256 封闭式 CJK 文字和月份 Enclosed CJK Letters and Months
13056 13311 3300 33FF 256 CJK 兼容 CJK Compatibility
13312 19903 3400 4DBF 6592 CJK 统一表意符号扩展 A CJK Unified Ideographs Extension A
19904 19967 4DC0 4DFF 64 易经六十四卦符号 Yijing Hexagrams Symbols
19968 40895 4E00 9FBF 20928 CJK 统一表意符号 CJK Unified Ideographs
40960 42127 A000 A48F 1168 彝文音节 Yi Syllables
42128 42191 A490 A4CF 64 彝文字根 Yi Radicals
42240 42527 A500 A61F 288 Vai Vai
42592 42751 A660 A6FF 160 统一加拿大土著语音节补充 Unified Canadian Aboriginal Syllabics Supplement
42752 42783 A700 A71F 32 声调修饰字母 Modifier Tone Letters
42784 43007 A720 A7FF 224 拉丁文扩展-D Latin Extended-D
43008 43055 A800 A82F 48 Syloti Nagri Syloti Nagri
43072 43135 A840 A87F 64 八思巴字 Phags-pa
43136 43231 A880 A8DF 96 Saurashtra Saurashtra
43264 43391 A900 A97F 128 爪哇语 Javanese
43392 43487 A980 A9DF 96 Chakma Chakma
43520 43583 AA00 AA3F 64 Varang Kshiti Varang Kshiti
43584 43631 AA40 AA6F 48 Sorang Sompeng Sorang Sompeng
43648 43743 AA80 AADF 96 Newari Newari
43776 43871 AB00 AB5F 96 越南傣语 Vi?t Thái
43904 43936 AB80 ABA0 33 Kayah Li Kayah Li
44032 55215 AC00 D7AF 11184 朝鲜文音节 Hangul Syllables
55296 56319 D800 DBFF 1024 High-half zone of UTF-16 High-half zone of UTF-16
56320 57343 DC00 DFFF 1024 Low-half zone of UTF-16 Low-half zone of UTF-16
57344 63743 E000 F8FF 6400 自行使用區域 Private Use Zone
63744 64255 F900 FAFF 512 CJK 兼容象形文字 CJK Compatibility Ideographs
64256 64335 FB00 FB4F 80 字母表達形式 Alphabetic Presentation Form
64336 65023 FB50 FDFF 688 阿拉伯表達形式A Arabic Presentation Form-A
65024 65039 FE00 FE0F 16 变量选择符 Variation Selector
65040 65055 FE10 FE1F 16 竖排形式 Vertical Forms
65056 65071 FE20 FE2F 16 组合用半符号 Combining Half Marks
65072 65103 FE30 FE4F 32 CJK 兼容形式 CJK Compatibility Forms
65104 65135 FE50 FE6F 32 小型变体形式 Small Form Variants
65136 65279 FE70 FEFF 144 阿拉伯表達形式B Arabic Presentation Form-B
65280 65519 FF00 FFEF 240 半型及全型形式 Halfwidth and Fullwidth Form
65520 65535 FFF0 FFFF 16 特殊 Specials

UTF-8有点类似于Haffman编码,它将Unicode编码为:

0x00-0x7F的字符,用单个字节来表示;
0x80-0x7FF的字符用两个字节表示;
0x800-0xFFFF的字符用3字节表示;
汉字的unicode范围是:0x4E00~0x9FA5
其实这个范围还包括了中,日,韩的字符。






3、ASCII

标准表

Bin(二进制)
Oct(八进制)
Dec(十进制)
Hex(十六进制)
缩写/字符
解释
0000 0000
0
0
00
NUL(null)
空字符
0000 0001
1
1
01
SOH(start of headline)
标题开始
0000 0010
2
2
02
STX (start of text)
正文开始
0000 0011
3
3
03
ETX (end of text)
正文结束
0000 0100
4
4
04
EOT (end of transmission)
传输结束
0000 0101
5
5
05
ENQ (enquiry)
请求
0000 0110
6
6
06
ACK (acknowledge)
收到通知
0000 0111
7
7
07
BEL (bell)
响铃
0000 1000
10
8
08
BS (backspace)
退格
0000 1001
11
9
09
HT (horizontal tab)
水平制表符
0000 1010
12
10
0A
LF (NL line feed, new line)
换行键
0000 1011
13
11
0B
VT (vertical tab)
垂直制表符
0000 1100
14
12
0C
FF (NP form feed, new page)
换页键
0000 1101
15
13
0D
CR (carriage return)
回车键
0000 1110
16
14
0E
SO (shift out)
不用切换
0000 1111
17
15
0F
SI (shift in)
启用切换
0001 0000
20
16
10
DLE (data link escape)
数据链路转义
0001 0001
21
17
11
DC1 (device control 1)
设备控制1
0001 0010
22
18
12
DC2 (device control 2)
设备控制2
0001 0011
23
19
13
DC3 (device control 3)
设备控制3
0001 0100
24
20
14
DC4 (device control 4)
设备控制4
0001 0101
25
21
15
NAK (negative acknowledge)
拒绝接收
0001 0110
26
22
16
SYN (synchronous idle)
同步空闲
0001 0111
27
23
17
ETB (end of trans. block)
结束传输块
0001 1000
30
24
18
CAN (cancel)
取消
0001 1001
31
25
19
EM (end of medium)
媒介结束
0001 1010
32
26
1A
SUB (substitute)
代替
0001 1011
33
27
1B
ESC (escape)
换码(溢出)
0001 1100
34
28
1C
FS (file separator)
文件分隔符
0001 1101
35
29
1D
GS (group separator)
分组符
0001 1110
36
30
1E
RS (record separator)
记录分隔符
0001 1111
37
31
1F
US (unit separator)
单元分隔符
0010 0000
40
32
20
(space)
空格
0010 0001
41
33
21
!
叹号
0010 0010
42
34
22
双引号
0010 0011
43
35
23
#
井号
0010 0100
44
36
24
$
美元符
0010 0101
45
37
25
%
百分号
0010 0110
46
38
26
&
和号
0010 0111
47
39
27
闭单引号
0010 1000
50
40
28
(
开括号
0010 1001
51
41
29
)
闭括号
0010 1010
52
42
2A
*
星号
0010 1011
53
43
2B
+
加号
0010 1100
54
44
2C
,
逗号
0010 1101
55
45
2D
减号/破折号
0010 1110
56
46
2E
.
句号
00
57
47
2F
/
斜杠
00
60
48
30
0
数字0
00
61
49
31
1
数字1
00
62
50
32
2
数字2
00
63
51
33
3
数字3
00
64
52
34
4
数字4
00
65
53
35
5
数字5
00
66
54
36
6
数字6
00
67
55
37
7
数字7
00
70
56
38
8
数字8
00
71
57
39
9
数字9
00
72
58
3A
:
冒号
00
73
59
3B
;
分号
00
74
60
3C
<
小于
00
75
61
3D
=
等号
00
76
62
3E
>
大于
00
77
63
3F
?
问号
0
100
64
40
@
电子邮件符号
0
101
65
41
A
大写字母A
0
102
66
42
B
大写字母B
0
103
67
43
C
大写字母C
0
104
68
44
D
大写字母D
0
105
69
45
E
大写字母E
0
106
70
46
F
大写字母F
0
107
71
47
G
大写字母G
0
110
72
48
H
大写字母H
0
111
73
49
I
大写字母I
0
112
74
4A
J
大写字母J
0
113
75
4B
K
大写字母K
0
114
76
4C
L
大写字母L
0
115
77
4D
M
大写字母M
0
116
78
4E
N
大写字母N
0
117
79
4F
O
大写字母O
0
120
80
50
P
大写字母P
0
121
81
51
Q
大写字母Q
0
122
82
52
R
大写字母R
0
123
83
53
S
大写字母S
0
124
84
54
T
大写字母T
0
125
85
55
U
大写字母U
0
126
86
56
V
大写字母V
0
127
87
57
W
大写字母W
0
130
88
58
X
大写字母X
0
131
89
59
Y
大写字母Y
0
132
90
5A
Z
大写字母Z
0
133
91
5B
[
开方括号
0
134
92
5C
\
反斜杠
0
135
93
5D
]
闭方括号
0
136
94
5E
^
脱字符
0
137
95
5F
_
下划线
0
140
96
60
`
开单引号
0
141
97
61
a
小写字母a
0
142
98
62
b
小写字母b
0
143
99
63
c
小写字母c
0
144
100
64
d
小写字母d
0
145
101
65
e
小写字母e
0
146
102
66
f
小写字母f
0
147
103
67
g
小写字母g
0
150
104
68
h
小写字母h
0
151
105
69
i
小写字母i
0
152
106
6A
j
小写字母j
0
153
107
6B
k
小写字母k
0
154
108
6C
l
小写字母l
0
155
109
6D
m
小写字母m
0
156
110
6E
n
小写字母n
0
157
111
6F
o
小写字母o
0
160
112
70
p
小写字母p
0
161
113
71
q
小写字母q
0
162
114
72
r
小写字母r
0
163
115
73
s
小写字母s
0
164
116
74
t
小写字母t
0
165
117
75
u
小写字母u
0
166
118
76
v
小写字母v
0
167
119
77
w
小写字母w
0
170
120
78
x
小写字母x
0
171
121
79
y
小写字母y
0
172
122
7A
z
小写字母z
0
173
123
7B
{
开花括号
0
174
124
7C
|
垂线
0
175
125
7D
}
闭花括号
0
176
126
7E
~
波浪号
0
177
127
7F
DEL (delete)
删除


免责声明:本站所有文章内容,图片,视频等均是来源于用户投稿和互联网及文摘转载整编而成,不代表本站观点,不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益,请在线联系站长,一经查实,本站将立刻删除。 本文来自网络,若有侵权,请联系删除,如若转载,请注明出处:https://haidsoft.com/127289.html

(0)
上一篇 2025-09-12 14:10
下一篇 2025-09-12 14:15

相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注微信