各种字符的unicode区间

作者: 扬帆大海 分类: 技术文章 发布时间: 2018-02-05 09:46
  • 这个页面主要是为了方便大家写正则时,引用不同字符的范围
  • 虽然题目是各种字符的unicode区间,实际上除了汉字只列举基本多文种平面内的字符(*^__\^*)
  • 之所以这样是因为绝大部分浏览器和操作系统都只支持基本多文种平面内的部分字符。
  • 基本多文种平面即:BMP(Basic Multilingual Plane),或称unicode第零平面(Plane 0)
  • unicode目前有17个矩阵平面,每个平面65536个位置,共1114112个位置,
  • CJK,意思是CJK 统一表意符号,包含中日韩三国文字及其注音符号,卦象,太玄经符号等等。
  • 表格基于unicode5.0

汉字

汉字 范围 数量 备注
汉字1 \u3007 1 中文小写数字“〇”
汉字2 \u3400-\u4DB5 6582 ExtA 连续
汉字3 \u4E00-\u9FCB 20940 基本集 连续,但9FBC~9FCB暂无字形
汉字4 \uE815-\uE864 80 自定义区 连续,这些字符有两个unicode编码
汉字5 \uF900-\uFAD9 470 兼容集 有洞,且[FA2E,FA2F,FA6E,FA6F]暂无字形
汉字6 \u20000-\u2A6D6 42711 ExtB 连续
汉字7 \u2F800-\u2FA1D 542 兼容补遗 连续
汉字8 \u2A700-\u2B734 4149 ExtC 连续
汉字9 \u2B740-\u2B81D 222 ExtD 连续
  • 汉字1\~5已经包含国家标准GB18030-2005《信息技术 中文编码字符集》内的全部汉字(27484个字)
  • 汉字6\~9主要是为了编入康熙字典里的汉字(47035个字)都是些打不出来也没法显示的字。
  • 实际使用中使用\u4e00-\u9fa5就可以了
  • 绝大部分浏览器和系统能显示的汉字范围为[\u3007\u3400-\u4DB5\u4E00-\u9FCB\uF900-\uFA2D]
  • 中文小写数字:〇一二三四五六七八九;中文大写数字:零壹贰叁肆伍陆柒捌玖。
    PS:所以“二零一七年”这么写是错误的,大小写混用了,应该写成“二〇一七年”

各种数字写法的范围

写法举例 范围 备注
1 [0-9]
[〇一二三四五六七八九]
[零壹贰叁肆伍陆柒捌玖]
[\u2460-\u2468] ⓪是\u24EA
[\u2474-\u247c] 没有0
[\u2488-\u2490] 没有0
[\u2160-\u2169] 没有0
[\u2776-\u277e] ⓿是\u24FF
[\u3220-\u3229] 没有0
1⁰ [\u2070-\u2079] 上标数字0~9
1₁ [\u2080-\u2089] 下标数字0~9

以上只是常用数字区间,中国人能看懂的数字区间为:

[0-9\u2460-\u249B\u24EA-\u24FF\u2150-\u218F\u2776-\u277e\u3220-\u3229\uff10-\uff19\u2070-\u2079\u2080-\u2089\u24ea\u24ff零壹贰叁肆伍陆柒捌玖〇一二三四五六七八九]


各种Emoji表情的范围

这个说起来都是泪啊,小日本整什么emoji嘛,单字节的,双字节的,单字节+控制符的,甚至四字节的

在参考了
1、android 输入框EditText禁止输入Emoji表情符
2、Android中过滤Emoji表情 完整版
3、Emoji Unicode Tables
4、Tieba Emoji
5、ZR贴吧营销综合发帖机
等等东西后,有个了还算靠谱的过滤区间

因为实际上绝大部分emoji表情都在第一矩阵平面,所以实际上表情编码在贴吧里会是替代编码
比如😁的Unicode实际是\U+1F601但你在管理器里看是\uD83D\uDE01,
也就是说,其实你过滤\uD83D和\uD83C就可以了

范围 区间名称 备注
[\uD83D][\uDE01-\uDE4F]] 表情符 😁
[\u2702-\u27B0] 装饰符
[\uD83D][\uDEC0-\uDE80] 交通标识 🚌

未完待续


全部语言一览

区间 语言 备注
0000-007F C0控制符及基本拉丁文 C0 Control and Basic Latin
0080-00FF C1控制符及拉丁文补充-1C1 Control and Latin 1 Supplement
0100-017F 拉丁文扩展-ALatin Extended-A
0180-024F 拉丁文扩展-BLatin Extended-B
0250-02AF 国际音标扩展IPA Extensions
02B0-02FF 空白修饰字母Spacing Modifiers
0300-036F 结合用读音符号Combining Diacritics Marks
0370-03FF 希腊文及科普特文Greek and Coptic
0400-04FF 西里尔字母Cyrillic
0500-052F 西里尔字母补充Cyrillic Supplement
0530-058F 亚美尼亚语Armenian
0590-05FF 希伯来文Hebrew
0600-06FF 阿拉伯文Arabic
0700-074F 叙利亚文Syriac
0750-077F 阿拉伯文补充Arabic Supplement
0780-07BF 马尔代夫语Thaana
07C0-07FF 西非书面语言N’Ko
0800-085F 阿维斯塔语及巴列维语Avestan and Pahlavi
0860-087F Mandaic
0880-08AF 撒马利亚语Samaritan
0900-097F 天城文书Devanagari
0980-09FF 孟加拉语Bengali
0A00-0A7F 锡克教文Gurmukhi
0A80-0AFF 古吉拉特文Gujarati
0B00-0B7F 奥里亚文Oriya
0B80-0BFF 泰米尔文Tamil
0C00-0C7F 泰卢固文Telugu
0C80-0CFF 卡纳达文Kannada
0D00-0D7F 德拉维族语Malayalam
0D80-0DFF 僧伽罗语Sinhala
0E00-0E7F 泰文Thai
0E80-0EFF 老挝文Lao
0F00-0FFF 藏文Tibetan
1000-109F 缅甸语Myanmar
10A0-10FF 格鲁吉亚语Georgian
1100-11FF 朝鲜文Hangul Jamo
1200-137F 埃塞俄比亚语Ethiopic
1380-139F 埃塞俄比亚语补充Ethiopic Supplement
13A0-13FF 切罗基语Cherokee
1400-167F 统一加拿大土著语音节Unified Canadian Aboriginal Syllabics
1680-169F 欧甘字母Ogham
16A0-16FF 如尼文Runic
1700-171F 塔加路文Tagalog
1720-173F 哈努诺文Hanunóo
1740-175F 布迪文Buhid
1760-177F 塔格巴努亚文Tagbanwa
1780-17FF 高棉语Khmer
1800-18AF 蒙古文Mongolian
1900-194F 林布文Limbu
1950-197F 德宏傣语Tai Le
1980-19DF 新傣语New Tai Lue
19E0-19FF 高棉语记号Kmer Symbols
1A00-1A1F 布吉文Buginese
1A20-1A5F 巴塔克文Batak
1A80-1AEF 兰纳文Lanna
1B00-1B7F 巴厘语Balinese
1B80-1BB0 巽他语Sundanese
1BC0-1BFF 杨松录苗文Pahawh Hmong
1C00-1C4F 雷布查语Lepcha
1C50-1C7F Ol Chiki
1C80-1CDF 曼尼普尔语Meithei/Manipuri
1D00-1D7F 语音学扩展Phonetic Extensions
1D80-1DBF 语音学扩展补充Phonetic Extensions Supplement
1DC0-1DFF 结合用读音符号补充Combining Diacritics Marks Supplement
1E00-1EFF 拉丁文扩充附加Latin Extended Additional
1F00-1FFF 希腊语扩充Greek Extended
2000-206F 常用标点General Punctuation
2070-209F 上标及下标Superscripts and Subscripts
20A0-20CF 货币符号Currency Symbols
20D0-20FF 组合用记号Combining Diacritics Marks for Symbols
2100-214F 字母式符号Letterlike Symbols
2150-218F 数字形式Number Form
2190-21FF 箭头Arrows
2200-22FF 数学运算符Mathematical Operator
2300-23FF 杂项工业符号Miscellaneous Technical
2400-243F 控制图片Control Pictures
2440-245F 光学识别符Optical Character Recognition
2460-24FF 封闭式字母数字Enclosed Alphanumerics
2500-257F 制表符Box Drawing
2580-259F 方块元素Block Element
25A0-25FF 几何图形Geometric Shapes
2600-26FF 杂项符号Miscellaneous Symbols
2700-27BF 印刷符号Dingbats
27C0-27EF 杂项数学符号-AMiscellaneous Mathematical Symbols-A
27F0-27FF 追加箭头-ASupplemental Arrows-A
2800-28FF 盲文点字模型Braille Patterns
2900-297F 追加箭头-BSupplemental Arrows-B
2980-29FF 杂项数学符号-BMiscellaneous Mathematical Symbols-B
2A00-2AFF 追加数学运算符Supplemental Mathematical Operator
2B00-2BFF 杂项符号和箭头Miscellaneous Symbols and Arrows
2C00-2C5F 格拉哥里字母Glagolitic
2C60-2C7F 拉丁文扩展-CLatin Extended-C
2C80-2CFF 古埃及语Coptic
2D00-2D2F 格鲁吉亚语补充Georgian Supplement
2D30-2D7F 提非纳文Tifinagh
2D80-2DDF 埃塞俄比亚语扩展Ethiopic Extended
2E00-2E7F 追加标点Supplemental Punctuation
2E80-2EFF CJK 部首补充CJK Radicals Supplement
2F00-2FDF 康熙字典部首Kangxi Radicals
2FF0-2FFF 表意文字描述符Ideographic Description Characters
3000-303F CJK 符号和标点CJK Symbols and Punctuation
3040-309F 日文平假名Hiragana
30A0-30FF 日文片假名Katakana
3100-312F 注音字母Bopomofo
3130-318F 朝鲜文兼容字母Hangul Compatibility Jamo
3190-319F 象形字注释标志Kanbun
31A0-31BF 注音字母扩展Bopomofo Extended
31C0-31EF CJK 笔画CJK Strokes
31F0-31FF 日文片假名语音扩展Katakana Phonetic Extensions
3200-32FF 封闭式 CJK 文字和月份Enclosed CJK Letters and Months
3300-33FF CJK 兼容CJK Compatibility
3400-4DBF CJK 统一表意符号扩展 ACJK Unified Ideographs Extension A
4DC0-4DFF 易经六十四卦符号Yijing Hexagrams Symbols
4E00-9FBF CJK 统一表意符号CJK Unified Ideographs
A000-A48F 彝文音节Yi Syllables
A490-A4CF 彝文字根Yi Radicals
A500-A59F 瓦伊语Vai
A640-A69F 统一加拿大土著语音节补充Unified Canadian Aboriginal Syllabics Supplement
A700-A71F 声调修饰字母Modifier Tone Letters
A720-A7FF 拉丁文扩展-DLatin Extended-D
A800-A82F Syloti Nagri
A840-A87F 八思巴字Phags-pa
A880-A8DF Saurashtra
A900-A92F Kayah Li
A930-A95F 勒姜语Rejang
AA00-AA5F 鞑靼文Cham
AC00-D7AF 朝鲜文音节Hangul Syllables
D800-DB7F 高位替代High Surrogates
DB80-DBFF 高位专用替代High Private Use Surrogates
DC00-DFFF 低位替代Low Surrogates
E000-F8FF 自行使用区域Private Use Zone
F900-FAFF CJK 兼容象形文字CJK Compatibility Ideographs
FB00-FB4F 字母表达形式Alphabetic Presentation Form
FB50-FDFF 阿拉伯表达形式AArabic Presentation Form-A
FE00-FE0F 变量选择符Variation Selector
FE10-FE1F 竖排形式Vertical Forms
FE20-FE2F 组合用半符号Combining Half Marks
FE30-FE4F CJK 兼容形式CJK Compatibility Forms
FE50-FE6F 小型变体形式Small Form Variants
FE70-FEFF 阿拉伯表达形式BArabic Presentation Form-B
FF00-FFEF 半型及全型形式Halfwidth and Fullwidth Form
FFF0-FFFF 特殊Specials

发表评论

电子邮件地址不会被公开。 必填项已用*标注