特殊 (Unicode區段)

特殊字符
Specials
範圍U+FFF0..U+FFFF
(16個碼位)
平面基本多文種平面BMP
文字通用
已分配5個碼位
未分配9個保留碼位
2個非字符
統一碼版本歷史
1.0.01 (+1)
2.12 (+1)
3.05 (+3)
碼表
點擊此處
註釋[1][2]

特殊字符是Unicode的一个简短的区段,分配在基本多文种平面的最末端,位于U+FFF0-FFFF。在这16个码位中,有5个是从Unicode 3.0开始分配的。

  • U+FFF9 行间注解锚,标志着注解文本的开始。
  • U+FFFA 行间注解分隔符,标记注解字符的开始。
  • U+FFFB 行间注解終止符,标志着注解块的结束。
  • U+FFFC  OBJECT REPLACEMENT CHARACTER,在文本中为另一个未指定的对象提供占位符,例如在一个复合文件中。
  • U+FFFD � REPLACEMENT CHARACTER(替换字符),用于替换一个未知的、不被认可的或无法表示的字符。
  • U+FFFE <非字符-FFFE> 不是一个字符。
  • U+FFFF <非字符-FFFF> 不是一个字符。

FFFE和FFFF不是通常意义上的未分配字符,但不是Unicode字符。它们可以用来猜测一个文本的编码方案,因为根据定义,任何包含这些的文本都不是一个正确编码的Unicode文本。Unicode的U+FEFF BYTE ORDER MARK字符可以插在Unicode文本的开头,以表示它的字节性:一个程序在阅读这样的文本并遇到0xFFFE时,就会知道它应该为后面的所有字符转换字节顺序。

它在Unicode 1.0中的区段名是特殊。[3]

特殊字符[1][2][3]
Official Unicode Consortium code chart (PDF)
  0 1 2 3 4 5 6 7 8 9 A B C D E F
U+FFFx IAA IAS IAT
注释
1.^ 依据Unicode 15.0
2.^ 灰色区域表示未分配的代码点。
3.^ 黑色区域表示非字符英语Universal_Character_Set_characters#Non-characters(保证在Unicode标准中永远不会被分配为编码字符的码位)。

歷史

以下Unicode文檔記錄了定義本區塊中特定字符的目的與過程:

版本 最終碼位[a] 碼位数 L2英语International Committee for Information Technology Standards ID WG2英语ISO/IEC JTC 1/SC 2 ID 文檔
1.0.0 U+FFFD 1 (to be determined)
U+FFFE..FFFF 2 (to be determined)
L2/01-295R Moore, Lisa, Motion 88-M2, Minutes from the UTC/L2 meeting #88, 2001-11-06 
L2/01-355 N2369 (html, doc (页面存档备份,存于互联网档案馆)) Davis, Mark, Request to allow FFFF, FFFE in UTF-8 in the text of ISO/IEC 10646, 2001-09-26 
L2/02-154 N2403 (页面存档备份,存于互联网档案馆 Umamaheswaran, V. S., 9.3 Allowing FFFF and FFFE in UTF-8, Draft minutes of WG 2 meeting 41, Hotel Phoenix, Singapore, 2001-10-15/19, 2002-04-22 
2.1 U+FFFC 1 UTC/1995-056 Sargent, Murray, Recommendation to encode a WCH_EMBEDDING character, 1995-12-06 
UTC/1996-002 Aliprand, Joan; Hart, Edwin; Greenfield, Steve, Embedded Objects, UTC #67 Minutes, 1996-03-05 
N1365 Sargent, Murray, Proposal Summary – Object Replacement Character, 1996-03-18 
N1353 (页面存档备份,存于互联网档案馆 Umamaheswaran, V. S.; Ksar, Mike, 8.14, Draft minutes of WG2 Copenhagen Meeting # 30, 1996-06-25 
L2/97-288 N1603 (页面存档备份,存于互联网档案馆 Umamaheswaran, V. S., 7.3, Unconfirmed Meeting Minutes, WG 2 Meeting # 33, Heraklion, Crete, Greece, 20 June – 4 July 1997, 1997-10-24 
L2/98-004R N1681 Text of ISO 10646 – AMD 18 for PDAM registration and FPDAM ballot, 1997-12-22 
L2/98-070 Aliprand, Joan; Winkler, Arnold, Additional comments regarding 2.1, Minutes of the joint UTC and L2 meeting from the meeting in Cupertino, February 25-27, 1998 
L2/98-318 N1894 (页面存档备份,存于互联网档案馆 Revised text of 10646-1/FPDAM 18, AMENDMENT 18: Symbols and Others, 1998-10-22 
3.0 U+FFF9..FFFB 3 L2/97-255R Aliprand, Joan, 3.D Proposal for In-Line Notation (ruby), Approved Minutes – UTC #73 & L2 #170 joint meeting, Palo Alto, CA – August 4-5, 1997, 1997-12-03 
L2/98-055 Freytag, Asmus, Support for Implementing Inline and Interlinear Annotations, 1998-02-22 
L2/98-070 Aliprand, Joan; Winkler, Arnold, 3.C.5. Support for implementing inline and interlinear annotations, Minutes of the joint UTC and L2 meeting from the meeting in Cupertino, February 25-27, 1998 
L2/98-099 N1727 Freytag, Asmus, Support for Implementing Interlinear Annotations as used in East Asian Typography, 1998-03-18 
L2/98-158 Aliprand, Joan; Winkler, Arnold, Inline and Interlinear Annotations, Draft Minutes – UTC #76 & NCITS Subgroup L2 #173 joint meeting, Tredyffrin, Pennsylvania, April 20-22, 1998, 1998-05-26 
L2/98-286 N1703 (页面存档备份,存于互联网档案馆 Umamaheswaran, V. S.; Ksar, Mike, 8.14, Unconfirmed Meeting Minutes, WG 2 Meeting #34, Redmond, WA, USA; 1998-03-16--20, 1998-07-02 
L2/98-270 Hiura, Hideki; Kobayashi, Tatsuo, Suggestion to the inline and interlinear annotation proposal, 1998-07-29 
L2/98-281R (pdf, html (页面存档备份,存于互联网档案馆)) Aliprand, Joan, In-Line and Interlinear Annotation (III.C.1.c), Unconfirmed Minutes – UTC #77 & NCITS Subgroup L2 # 174 JOINT MEETING, Redmond, WA -- July 29-31, 1998, 1998-07-31 
L2/98-363 N1861 (页面存档备份,存于互联网档案馆 Sato, T. K., Ruby markers, 1998-09-01 
L2/98-372 N1884R2 (pdf, doc (页面存档备份,存于互联网档案馆)) Whistler, Ken; et al, Additional Characters for the UCS, 1998-09-22 
L2/98-416 N1882.zip Support for Implementing Interlinear Annotations, 1998-09-23 
L2/98-329 N1920 (页面存档备份,存于互联网档案馆 Combined PDAM registration and consideration ballot on WD for ISO/IEC 10646-1/Amd. 30, AMENDMENT 30: Additional Latin and other characters, 1998-10-28 
L2/98-421R Suignard, Michel; Hiura, Hideki, Notes concerning the PDAM 30 interlinear annotation characters, 1998-12-04 
L2/99-010 N1903 (pdf, html (页面存档备份,存于互联网档案馆), doc (页面存档备份,存于互联网档案馆)) Umamaheswaran, V. S., 8.2.15, Minutes of WG 2 meeting 35, London, U.K.; 1998-09-21--25, 1998-12-30 
L2/98-419 (pdf, doc (页面存档备份,存于互联网档案馆)) Aliprand, Joan, Interlinear Annotation Characters, Approved Minutes -- UTC #78 & NCITS Subgroup L2 # 175 Joint Meeting, San Jose, CA -- December 1-4, 1998, 1999-02-05 
UTC/1999-021 Duerst, Martin; Bosak, Jon, W3C XML CG statement on annotation characters, 1999-06-08 
L2/99-176R Moore, Lisa, W3C Liaison Statement on Annotation Characters, Minutes from the joint UTC/L2 meeting in Seattle, June 8-10, 1999, 1999-11-04 
L2/01-301 Whistler, Ken, E. Indicated as "strongly discouraged" for plain text interchange, Analysis of Character Deprecation in the Unicode Standard, 2001-08-01 
  1. ^ 建議的碼位和字符名稱可能與最終的結果不同。

參考資料

  1. ^ Unicode character database. The Unicode Standard. [2016-07-09]. (原始内容存档于2022-09-25). 
  2. ^ Enumerated Versions of The Unicode Standard. The Unicode Standard. [2016-07-09]. (原始内容存档于2016-06-29). 
  3. ^ 3.8: Block-by-Block Charts (PDF). The Unicode Standard. version 1.0. Unicode Consortium. [2022-09-30]. (原始内容存档 (PDF)于2016-02-11). 
文字
欧洲文字Ⅰ
現代文字與儀式文字
拉丁(基本 · 補充 · 擴展-A · 擴展-B · 擴展-C · 擴展-D · 擴展-E · 擴展-F · 擴展-G · 擴展附加 · 連字 · 國際音標擴展 · 音標擴展 · 音標擴展補充 · 希臘和科普特擴展 · 數字) · 科普特 · 西里爾(補充 · 擴展-A · 擴展-B · 擴展-C · 擴展-D · 格拉哥里(補充 · 亞美尼亞(連字 · 格鲁吉亚(擴展 · 補充
修飾符號(聲調 · 佔位 · 上下標 · 組合附加符號扩展 · 补充 · 符号用 · 组合半符号
欧洲文字Ⅱ
古代文字與其他文字
線形文字A · 線形文字B(音節 · 表意 · 數字) · 賽普勒斯 · 賽普勒斯-米諾斯 · 古安納托利亞(呂基亞 · 卡里亚 · 呂底亞) · 古義大利 · 盧恩 · 古匈牙利 · 哥特 · 愛爾巴桑 · 高加索阿爾巴尼亞 · 維斯庫奇 · 古彼爾姆 · 歐甘 · 蕭伯納
中东文字Ⅰ
現代文字與儀式文字
希伯來(表達形式 · 阿拉伯(補充 · 擴展-A · 擴展-B · 擴展-C · 表達形式-A · 表達形式-B · 敘利亞(補充 · 撒瑪利亞 · 曼達安 · 雅茲迪
中东文字Ⅱ
古代文字
古北阿拉伯 · 古南阿拉伯 · 腓尼基 · 帝國亞蘭 · 摩尼 · 碑刻帕提亞 · 碑刻巴列維 · 詩篇巴列維 · 阿維斯陀 · 花剌子模 · 埃利邁 · 納巴泰 · 巴尔米拉 · 哈特拉
楔形文字與象形文字
楔形文字(數字和標點 · 早期王朝) · 烏加里特 · 古波斯 · 埃及聖書體(格式控制 · 麥羅埃文(草書體 · 聖書體) · 安納托利亞象形
南亞和中亞文字Ⅰ
印度官方文字
天城(擴展 · 擴展-A · 吠陀擴展 · 孟加拉 · 古木基 · 古吉拉特 · 奧里亞 · 泰米爾 (补充)  · 泰盧固 · 卡納達 · 馬拉雅拉姆
南亞和中亞文字II
其他現代文字
它拿 · 僧伽羅(古數字) · 尼瓦爾 · · 蒙古(補充 · 林布 · 梅泰(擴展 · 默禄 · 瓦蘭齊地 · 桑塔利 · 查克馬 · 絨巴 · 索拉什特拉 · 馬薩拉姆貢德 · 貢賈爾貢德 · 文喬 · 投投 · 唐薩 · 蒙達里
南亞和中亞文字Ⅲ
古代文字
婆羅米 · 佉盧 · 拜克舒基 · 八思巴 · 玛钦 · 札那巴札尔方形 · 索永布 · 古突厥 · 古粟特 · 粟特 · 回鶻
南亞和中亞文字Ⅳ
其他歷史文字
錫爾赫特 · 凱提 · 夏拉達 · 塔克里 · 悉曇 · 馬哈賈尼 · 科傑基 · 庫達瓦迪 · 木爾坦 · 底羅僕多 · 莫迪 · 南迪城文 · 古蘭塔 · 迪維希阿庫魯 · 阿洪姆 · 索拉僧平 · 多格拉
东南亚文字
 · 老挝 · 緬甸(擴展-A · 擴展-B · 高棉(符號 · 傣纳 · 新傣仂 · 老傣仂 · 傣越 · 克耶 · · 救世苗 · 創世紀苗 · 包钦豪 · 哈乃斐羅興亞
印尼和大洋洲文字
菲律賓(他加祿 · 哈努諾 · 布希德 · 塔格班瓦) · 卡維 · 布吉 · 巴厘 · 爪哇 · 勒姜 · 巴塔克 · 巽他(補充 · 望加錫
东亚文字
汉字(擴展-A · 擴展-B · 擴展-C · 擴展-D · 擴展-E · 擴展-F · 擴展-G · 擴展-H · 擴展-I · 兼容 · 兼容補充 · 部首 · 部首補充 · 筆畫 · 漢文訓讀 · 表意文字符號和標點 · 表意文字描述字符 · 注音(擴展) · 假名(平假名 · 片假名 · 语音擴展 · 補充 · 擴展-A · 擴展-B · 小型假名 · 半形全形 · 諺文(擴展-A · 擴展-B · 兼容 · 諺文音節 · 部首 · 女書 · 傈僳(補充 · 柏格理苗 · 西夏(部件 · 補充 · 契丹小字
非洲文字
埃塞俄比亚(補充 · 擴展 · 擴展-A · 擴展-B · 奧斯曼亞 · 提非納 · 西非 · 瓦伊 · 巴穆姆 (補充 · 巴薩 · 門地奇卡奎 · 阿德拉姆 · 梅德法伊德林
美洲文字
切羅基(補充 · 加拿大原住民(擴展 · 擴展-A · 歐塞奇 · 德瑟雷特
符号
標記系統
盲文圖案 · 音樂符號(拜占庭 · 茲納緬尼耶 · 古希臘) · 迪普卢瓦耶速记(格式控制) · 萨顿手语谱写
标点符号
一般標點(ASCII · 拉丁-1 · 補充 · 中日韓符號和標點表意文字 · CJK兼容(半形全形 · 小寫變體 · 豎排)
字母数字符号
类字母(羅馬符號) · 数学 · 阿拉伯数学 · 帶圈補充 · CJK帶圈補充 · CJK兼容
技术符号
数字
ASCII數字(全形) · 通用印度 · 科普特閏餘 · 算籌 · 楔形文字 · 印度西亞格 · 因努伊特 · 瑪雅 · 數字形式 · 奧斯曼西亞格 · 魯米 · 古僧伽羅 · 上下標
数学符号
箭頭(補充-A · 補充-B · 補充-C · 雜項和箭頭 · 数学字母数字符号(阿拉伯数学 · 字母式 · 數學運算符(補充 · 雜項數學-A · 雜項數學-B · 幾何圖形(擴展 · 製表符 · 方塊元素
绘文字与象形
什錦(裝飾符號) · 表情 · 雜項 · 雜項和圖符 · 補充和圖符 · 擴展-A · 交通地圖
其他符號
鍊金術 · 古代符號 · 貨幣 · 游戏符号(國際象棋和國際跳棋 · 棋類 · 多米諾 · 麻將 · 撲克 · 花色) · 雜項和箭頭 · 遗留計算 · 易經符號(兩儀四象八卦 · 六十四卦 · 太玄經) · 斐斯托斯圓盤
其他
特殊 · 標籤 · 变体选择符(补充 · 私用區(補充私用區-A · 補充私用區-B) · 代用區(高代用區 · 低代用區) · 非字符