中日韓越統一表意文字
中日韓越統一表意文字
中日韓越統一表意文字(CJKV Unified Ideographs),目的是要把分別來自中文、日文、韓文中,本質相同、形狀一樣或稍異的表意文字(主要為漢字,但也有仿漢字如日本國字、韓國獨有漢字)於ISO 10646及Unicode標準內賦予相同編碼。越南文後來亦加入此計劃,所以亦有“CJKV”的稱呼。Unicode亦開始收錄其仿漢字-喃字。
中日韓越統一表意文字(英語: CJKV Unified Ideographs),舊稱 中日韓統一表意文字(英語: CJKUnified Ideographs),也稱 統一漢字(英語: Unihan),目的是要把分別來自中文、日文、韓文、越文、壯文中,對於相同起源、本義相同、形狀一樣或稍異的表意文字主要為漢字,但也有仿漢字如:方塊壯字、日文漢字(かんじ / kanji)、韓文漢字(한자 / hanja)、越南的喃字(Chữ Nôm)與越文漢字[漢字/Hán Tự,在越南也稱作儒字(儒/Chữ Nho)],應賦予其在ISO 10646及統一碼標準中有相同編碼。此計劃原本只包含中文、日文及韓文中所使用的漢字,是以舊稱中日韓統一表意文字(CJK)。後來,此計劃加入了越文的喃字,所以合稱中日韓越統一表意文字(CJKV)。
1978 年,日本基於ISO 2022,制訂了全世界最早的漢字編碼 JIS C6226。1980年代,中國大陸、台灣、韓國則各自製訂了自己的規範。這些規範彼此之關並無關聯。若要在一份文件中同時使用,則要以脫序字元的方式來交換。
1980 年,日本的國立國會圖書館的高橋德太郎以圖書學的觀點指出,一個統一的東亞漢字編碼系統是有必要的。同年,台灣制定了三位元組的中文信息交換碼。偶然的是,這是第一個期望可以一致處理中國大陸、日本、台灣漢字的編碼。之後,美國的國會圖書館採用了此規格,並另外命名為東亞編碼字元(EastAsia Coded Character,EACC,ANSI/NISOZ39.64)。
1984年,ISO 的文字編碼委員會(ISO/TC97/SC2)決議制訂出一套編碼規格(ISO10646),是以交換文字集的方式來統一處理世界的文字。並成立了工作小組(ISO/TC97/SC 2/ WG 2)。這個編碼一開始的構想是採用16位,而對於日本及中國等國的漢字編碼則原封不動地加入。但若如此,中國當時所制訂的編碼都無法加入,因而反對。並於1989年,提出了各國的漢字統合集合(HanCharacter Collection,HCC)的構想。
1990年完成了 ISO10646 的初版草案(DIS10646)。漢字使用32 位來表示。並將各國的漢字編碼原封不動地加入。但中國認為,若各國各自為漢字編碼,將不利於統一處理漢字,因而反對。為了日後關於漢字編碼的討論及方針能順利進行,並呼籲WG 2 特別設置了中日韓聯合研究小組(CJK-JRG,JointResearch Group,為表意文字小組的前身),以持續討論。
另一方面,1987年,全錄的 JoeBecker 和Lee Collins 開發了統合處理全世界所有文字的統一碼。1989年發表了統一碼概要。基本為 16 位。於是,中、日、韓文字統合了。基本方針為以16 位處理所有文字。 1990年,完成了基於此方針的最終草案。來年1991年1月,大致同意此方案的企業成立了統一碼聯盟。中、日、韓中類似的漢字使用約二萬多個字。為了未來擴充,保留了三萬個漢字以供其它用途。
1991年,各國希望能以一致的方式處理文字,如統一碼這般,因而否決了ISO/IEC 10646 的初版草案。基於中國與統一碼聯盟的提議,ISO10646 和統一碼成立了中日韓聯合研究小組。中日韓聯合研究小組將基於各國的漢字編碼,獨自訂定規範、製作ISO 10646 和統一碼的統一漢字編碼。年尾,完成了UnifiedRepertoire and Ordering (URO)。
1992年,URO 加入 ISO10646 的第二版。但是,發現了一些缺失,之後進行了修正。
1993年5月,正式制訂了最初的中日韓統一表意文字,位於U+4E00–U+9FFF 這個區域,共20,902 個字。一個月後,制訂了統一碼1.1。
1999年,依據 ISO/IEC10646 的第17 個修正案(Amendment17)訂定了擴充區 A ,於U+3400–U+4DFF 加入了6,582 個字。
2001年,依據 ISO/IEC10646-2,新增了擴充區B ,有 42,711 字。位於U+20000–U+2A6FF。但因在短時間內增加了大量的漢字,導致產生了許多重複的字形。
2005年,依據 ISO/IEC10646:2003 的第1 個修正案(Amendment1),基本多文種平面增加了 U+9FA6 到 U+9FBB 等 22 個漢字。
2009年,統一碼 5.2 擴充區 C 增加了U+2A700-U+2B734 和U+9FC4~U+9FCB。
2010年,統一碼 6.0 擴充區 D 增加了U+2B740-U+2B81F。
2012年,1字增加 U+9FCC。
最初期統一漢字
最初期的統一漢字(20,902字)字源來自以下字集:
中國大陸的G源
G0:GB 2312-80:6,763字
G1:GB 12345-90:2,352字(含58個香港字和2個吏讀字,不包括和G0重覆的字)
G3:GB 7589-87:7,237字
G5:GB 7590-87:7,039字
G7:現代漢語通用字表:642(G0, 1, 3, 5, 8未包括的字)
G8:GB 8565-89:290字(G0, 1, 3, 5未包括的字)
台灣的T源
T1:CNS 11643-1986第一字面:5,401+9字(含9個計量用漢字)
T2:CNS 11643-1986第二字面:7,650字
TE:CNS 11643-1986第十四字面:6,319+239+10(含239個CCCII特字和10個XCCS特字)
日本的J源
J1:JIS X 0208-90:6,335+1字
J2:JIS X 0212-90:5,801字
韓國的K源
K0:KS C 5601-87:4,888字(含268個重見字)
K1:KS C 5657-91:2,856字
以上的來源字集會實施字源分離原則。
另外還有:ANSI Z39.64-1989(EACC)、Big5、CCCII第一面、GB 12052-89、JEF、中國大陸電報碼、台灣電報碼、Xerox Chinese。這些來源字集不會實施字源分離原則。
很多人以為20,902統一漢字中來自台灣的只是Big5的一萬三千多字,其實不然.
擴展A區
擴展A區包含有6,582個新的漢字,位置在 U+3400—U+4DB5。相比起最初期統一漢字,擴展A區多了來自多個來自中國大陸、台灣、新加坡等漢字。
這6千多個漢字分別從以下字典或字集中取得:中國大陸 《康熙字典》5357字(獨有1892字)
《漢語大字典》5888字(獨有339字)
G3:GB 7589-87 繁體字:2391字
G5:GB 7590-87 繁體字:1226字
G7:120字 GS:新加坡漢字226字 台灣 T3:CNS 11643-1992 第三字面(原本為CNS 11643-1986第十四字面)新加入字元
T4:CNS 11643-1992 第四字面
T5:CNS 11643-1992 第五字面
T6:CNS 11643-1992 第六字面
T7:CNS 11643-1992 第七字面
TF:CNS 11643-1992 第十五字面
日本 JA: Unified Japanese IT Vendors Contemporary Ideographs, 1993
南韓 K2:PKS C 5700-1:1994 K3:PKS C 5700-2:1994
越南 V0:TCVN 5773:1993 V1:TCVN 6056:1995
擴展B區
擴展B區包含有42,711個新的漢字,位置在 U+20000—U+2A6D6。根據ISO/IEC JTC1/SC2/WG2/IRG N777號文件,這四萬多個漢字分別從以下字典或字集中取得:
CNS 11643的第4平面到第15平面所收錄的30,177個漢字;
在《漢語大字典》中出現的28,914個未收錄漢字;
在《康熙字典》中出現的18,486個未收錄漢字(包括一個在補遺篇出現漢字);
在北朝鮮的國家標準所收錄的5,642個漢字;
在越南的國家標準所收錄的4,232個字喃;
HKSCS中出現的1,081個未收錄漢字;
《漢語大詞典》中出現的553個未收錄漢字;
《四庫全書》中出現的522個未收錄漢字;
日本工業標準的JIS X 0213第3平面及第4平面的302個未收錄漢字;
1980年代版本的《辭海》中出現的247個未收錄漢字;
大韓民國PKS 5700-3:1998中出現的166個未收錄漢字;
《中國大百科全書》中出現的86個未收錄漢字;
《辭源》中出現的66個未收錄漢字;
北大方正排版系統中出現的65個未收錄漢字;
這堆漢字中重複的漢字有不少,所以經過整理之後,總數實際上只有42,711個漢字。
另外,在 U+2F800—U+2FA1D 的位置,放了542個來自台灣的兼容漢字。
Unicode 4.1漢字
為使 Unicode 向下兼容 GB 18030 和香港增補字符集(HKSCS)的所有漢字,而擴展C區又遲遲未能出籠,在 Unicode 4.1 版中引進了14個香港增補字符集的用字和8個 GB 18030 用字。該22字被編於 U+9FA6—U+9FBB 的位置。
另外,在 U+FA70—U+FAD9 的位置,放了106個來自北朝鮮的兼容漢字。
擴展C區按計劃,中日韓統一表意文字擴展C區將收錄4,251個漢字,包括來自中國大陸、澳門、台灣、日本、越南等尚未被編碼的漢字。這些漢字預計會收錄在下一版的 Unicode 版本中,位置在 U+2A6E0—U+2B77A。
字源分離原則
字源分離原則(Source Separation Rule)是整理中日韓統一表意文字的基礎。
由於CJK各地字型多有微妙的差異,如“戶”字的第一筆,台灣作撇、中國大陸作點、日本作橫,這種程度的差異,理想上是整並為一個字為佳。然而,從之前各種受挫之文字整並計劃的經驗得知,整合字集與現行通用字集(Big5或國標碼)等無法一一對應,是推行整合字集的最大阻礙。
例如,日本的JIS標準同時收錄了“剣”字與“劍”字,原本JIS文件里這兩個字可以並存,但採用整合字集后反而變成同一個字,會造成使用上的困擾。於是,字源分離原則因而誕生。
字源分離原則是指,在上述所列出之各種字源里,若有任何字集同時收了兩種以上的文字字形,則在Unicode中日韓統一表意文字中,也同時收錄這些字。這樣一來,現行的各種原有字集與Unicode漢字可以一一對應。
由於Unicode中日韓統一表意文字的主要訴求,就是能大幅減少Unicode收錄漢字字數,同時尊重各地的習慣字形。但字源分離原則則破壞了“只對字,而不對字形”編碼之原則,亦遭受不少批評。
已統一的漢字原則上ISO 10646隻對字(Character),而非字形(Glyph)編碼。同一字各地可使用自己的標準寫法。下例中使用HTML標示同一編碼的字在不同地區中的寫法(但只是我的電腦提供的字型,未必代表該地區的標準寫法)。
擴展C區
於2009年10月發布的Unicode 5.2涵蓋了擴展C區,共收錄4,149個漢字,包括來自中國大陸、澳門、台灣、日本、越南等尚未被編碼的漢字。位置在 U+2A700—U+2B734。
擴展D區
擴充區D包含的都是所謂的「急用漢字」,合共222個新漢字,於2010年下旬發布的Unicode6.0中,編碼範圍為 U+2B740 至 U+2B81F(實際有字元為 U+2B740 至 U+2B81D)。
擴展D區原本計劃放置擴展C區未收錄的16,000多個漢字,但在2007年5月,台灣撤消了6,545個第二部分字集內私用漢字,不再使用字,原因是那些人名用字的擁有人或已去世或已移居外地,此後擴展D區縮減到大約10,000字左右。,由於各種阻礙,協議先把數量較少,又急切要收錄的漢字提交出來,就是「急用漢字」,以便和統一碼6.0.0版一起發表。提出的急用漢字只有二百二十二字(本來有二百二十三字,但中國大陸撤回其中一字)。現在文字小組把第二部分字集延後到擴充E區。
有些字只是同一字在不同地區的寫法,理應統一,但因為字源分離原則而只好分開編碼。值得注意的是字源分離原則由擴展A集 (Extension A) 開始已沒有使用,原因是CNS中有太多字形非常接近,按 Unicode 標準應該統一的字。這些字只有第一個會編入正式字集(包括Extension A,B,C) 中,其餘的編入位於第二輔助平面的表意文字補充兼容區 (Compatibility Ideographs Supplement) 中。
以下是所有摘自ISO/IEC JTC1/SC2/WG2字源分離原則文件之中有的字。
Unicode | 字 | Unicode | 字 | Unicode | 字 |
U+4E1F | 丟 | U+4E22 | 丟 | ||
U+4E48 | 么 | U+5E7A | 幺 | ||
U+4E89 | 爭 | U+722D | 爭 | ||
U+4EDE | 仞 | U+4EED | 仭 | ||
U+4F75 | 並 | U+5002 | 倂 | ||
U+4FA3 | 侶 | U+4FB6 | 侶 | ||
U+4FC1 | 俁 | U+4FE3 | 俁 | ||
U+4FDE | 俞 | U+516A | 兪 | ||
U+4FF1 | 俱 | U+5036 | 倶 | ||
U+5024 | 値 | U+503C | 值 | ||
U+5077 | 偷 | U+5078 | 偷 | ||
U+507D | 偽 | U+50DE | 偽 | ||
U+514C | 兌 | U+5151 | 兌 | ||
U+514E | 兎 | U+5154 | 兔 | ||
U+5156 | 兗 | U+5157 | 兗 | ||
U+518A | 冊 | U+518C | 冊 | ||
U+51C0 | 凈 | U+51C8 | 凈 | ||
U+51E2 | 凢 | U+51E3 | 凣 | ||
U+5203 | 刃 | U+5204 | 刄 | ||
U+520A | 刊 | U+520B | 刋 | ||
U+5220 | 刪 | U+522A | 刪 | ||
U+5225 | 別 | U+522B | 別 | ||
U+5238 | 券 | U+52B5 | 劵 | ||
U+5239 | 剎 | U+524E | 剎 | ||
U+524F | 剏 | U+5259 | 剙 | ||
U+525D | 剝 | U+5265 | 剝 | ||
U+5292 | 劍 | U+5294 | 劔 | ||
U+52FB | 勻 | U+5300 | 勻 | ||
U+5355 | 單 | U+5358 | 単 | ||
U+5373 | 即 | U+537D | 卽 | ||
U+5377 | 卷 | U+5DFB | 巻 | ||
U+53C1 | 叄 | U+53C2 | 參 | ||
U+53C3 | 參 | U+53C4 | 叄 | ||
U+5415 | 呂 | U+5442 | 呂 | ||
U+541E | 吞 | U+5451 | 呑 | ||
U+5433 | 吳 | U+5434 | 吳 | U+5449 | 呉 |
U+5436 | 吶 | U+5450 | 吶 | ||
U+543F | 吿 | U+544A | 告 | ||
U+5527 | 唧 | U+559E | 喞 | ||
U+55A9 | 喩 | U+55BB | 喻 | ||
U+5618 | 噓 | U+5653 | 噓 | ||
U+568F | 嚏 | U+5694 | 嚔 | ||
U+56EF | 國 | U+56FD | 國 | ||
U+5708 | 圈 | U+570F | 圏 | ||
U+570E | 圎 | U+5713 | 圓 | ||
U+5716 | 圖 | U+5717 | 圗 | ||
U+5759 | 坙 | U+5DE0 | 巠 | ||
U+57D2 | 埒 | U+57D3 | 埓 | ||
U+5848 | 塈 | U+588D | 墍 | ||
U+5861 | 塡 | U+586B | 填 | ||
U+5897 | 増 | U+589E | 增 | ||
U+58EE | 壯 | U+58EF | 壯 | ||
U+58FD | 壽 | U+5900 | 壽 | ||
U+5910 | 夐 | U+657B | 敻 | ||
U+5932 | 夲 | U+672C | 本 | ||
U+5965 | 奧 | U+5967 | 奧 | ||
U+5968 | 奨 | U+596C | 獎 | U+734E | 獎 |
U+5986 | 妝 | U+599D | 妝 | ||
U+598D | 妍 | U+59F8 | 姸 | ||
U+59CD | 姍 | U+59D7 | 姍 | ||
U+59EB | 姫 | U+59EC | 姬 | ||
U+5A1B | 娛 | U+5A2F | 娯 | U+5A31 | 娛 |
U+5A55 | 婕 | U+5AAB | 媫 | ||
U+5A7E | 婾 | U+5AAE | 偷 | ||
U+5AAA | 媼 | U+5ABC | 媼 | ||
U+5AAF | 媯 | U+5B00 | 媯 | ||
U+5B0E | 嬎 | U+5B14 | 嬔 | ||
U+5B24 | 嬤 | U+5B37 | 嬤 | ||
U+5B73 | 孳 | U+5B76 | 孶 | ||
U+5BAB | 宮 | U+5BAE | 宮 | ||
U+5BDB | 寛 | U+5BEC | 寬 | ||
U+5BDC | 寜 | U+5BE7 | 寧 | ||
U+5BDD | 寢 | U+5BE2 | 寢 | ||
U+5C02 | 専 | U+5C08 | 專 | ||
U+5C06 | 將 | U+5C07 | 將 | ||
U+5C13 | 尓 | U+5C14 | 爾 | ||
U+5C19 | 尙 | U+5C1A | 尚 | ||
U+5C2A | 尪 | U+5C2B | 尫 | ||
U+5C36 | 尶 | U+5C37 | 尷 | ||
U+5C4F | 屏 | U+5C5B | 屛 | ||
U+5CE5 | 崢 | U+5D22 | 崢 | ||
U+5DD3 | 巓 | U+5DD4 | 巔 | ||
U+5E21 | 帡 | U+5E32 | 帲 | ||
U+5E2F | 帯 | U+5E36 | 帶 | ||
U+5E76 | 並 | U+5E77 | 幷 | ||
U+5EC4 | 廄 | U+5ECF | 廏 | ||
U+5F11 | 弒 | U+5F12 | 弒 | ||
U+5F37 | 強 | U+5F3A | 強 | ||
U+5F39 | 彈 | U+5F3E | 弾 | ||
U+5F50 | 彐 | U+5F51 | 彑 | ||
U+5F54 | 彔 | U+5F55 | 錄 | ||
U+5F59 | 匯 | U+5F5A | 彚 | ||
U+5F5B | 彛 | U+5F5C | 彝 | ||
U+5F5D | 彝 | U+5F5E | 彝 | ||
U+5F65 | 彥 | U+5F66 | 彥 | ||
U+5FB3 | 徳 | U+5FB7 | 德 | ||
U+5FB4 | 征 | U+5FB5 | 征 | ||
U+6075 | 恵 | U+60E0 | 惠 | ||
U+6085 | 悅 | U+60A6 | 悅 | ||
U+609E | 悞 | U+60AE | 悞 | ||
U+60B3 | 悳 | U+60EA | 惪 | ||
U+6120 | 慍 | U+614D | 慍 | ||
U+613C | 愼 | U+614E | 慎 | ||
U+6229 | 戩 | U+622C | 戩 | ||
U+622F | 戲 | U+6231 | 戱 | ||
U+6236 | 戶 | U+6237 | 戶 | U+6238 | 戸 |
U+623B | 戻 | U+623E | 戾 | ||
U+629B | 拋 | U+62CB | 拋 | ||
U+629C | 抜 | U+62D4 | 拔 | ||
U+6329 | 挩 | U+635D | 挩 | ||
U+633F | 挿 | U+63D2 | 插 | U+63F7 | 揷 |
U+634F | 捏 | U+63D1 | 揑 | ||
U+635C | 捜 | U+641C | 搜 | ||
U+63B2 | 掲 | U+63ED | 揭 | ||
U+63FA | 揺 | U+6416 | 搖 | U+6447 | 搖 |
U+63FE | 搵 | U+6435 | 搵 | ||
U+6483 | 撃 | U+64CA | 擊 | ||
U+654E | 敎 | U+6559 | 教 | ||
U+6553 | 敓 | U+655A | 敚 | ||
U+65E2 | 既 | U+65E3 | 旣 | ||
U+6602 | 昂 | U+663B | 昻 | ||
U+665A | 晚 | U+6669 | 晩 | ||
U+66A8 | 暨 | U+66C1 | 曁 | ||
U+66FD | 曽 | U+66FE | 曾 | ||
U+67B4 | 拐 | U+67FA | 拐 | ||
U+67E5 | 查 | U+67FB | 査 | ||
U+67F5 | 柵 | U+6805 | 柵 | ||
U+68B2 | 梲 | U+68C1 | 梲 | ||
U+6961 | 楡 | U+6986 | 榆 | ||
U+6982 | 概 | U+69EA | 槪 | ||
U+6985 | 榲 | U+69B2 | 榲 | ||
U+699D | 榝 | U+6A27 | 樧 | ||
U+69C7 | 槇 | U+69D9 | 槙 | ||
U+69D8 | 様 | U+6A23 | 樣 | ||
U+6A2A | 橫 | U+6A6B | 橫 | ||
U+6B65 | 步 | U+6B69 | 歩 | ||
U+6B72 | 歲 | U+6B73 | 歳 | ||
U+6B7F | 歿 | U+6B81 | 歿 | ||
U+6BBB | 殼 | U+6BBC | 殼 | ||
U+6BC0 | 毀 | U+6BC1 | 毀 | ||
U+6BCE | 毎 | U+6BCF | 每 | ||
U+6C32 | 氳 | U+6C33 | 氳 | ||
U+6C5A | 污 | U+6C61 | 污 | ||
U+6C92 | 沒 | U+6CA1 | 沒 | ||
U+6D44 | 浄 | U+6DE8 | 凈 | ||
U+6D89 | 涉 | U+6E09 | 渉 | ||
U+6D97 | 涗 | U+6D9A | 涚 | ||
U+6D99 | 涙 | U+6DDA | 淚 | ||
U+6DE5 | 淥 | U+6E0C | 淥 | ||
U+6DF8 | ?#91; | U+6E05 | 清 | ||
U+6E07 | 渇 | U+6E34 | 渴 | ||
U+6E29 | 溫 | U+6EAB | 溫 | ||
U+6E88 | 溈 | U+6F59 | 溈 | ||
U+6E89 | 溉 | U+6F11 | 漑 | ||
U+6EDA | 滾 | U+6EFE | 滾 | ||
U+6F5B | 潛 | U+6FF3 | 濳 | ||
U+7028 | 瀨 | U+702C | 瀬 | ||
U+70BA | 為 | U+7232 | 為 | ||
U+712D | 焭 | U+7162 | 煢 | ||
U+7155 | 煕 | U+7199 | 熙 | ||
U+7174 | 熅 | U+7185 | 熅 | ||
U+72B6 | 狀 | U+72C0 | 狀 | ||
U+7464 | 瑤 | U+7476 | 瑤 | ||
U+74F6 | 瓶 | U+7501 | 甁 | ||
U+7522 | 產 | U+7523 | 產 | ||
U+75E9 | 痩 | U+7626 | 瘦 | ||
U+76A1 | 皡 | U+76A5 | 皥 | ||
U+771E | 眞 | U+771F | 真 | ||
U+773E | 眾 | U+8846 | 眾 | ||
U+7814 | 研 | U+784F | 硏 | ||
U+797F | 祿 | U+7984 | 祿 | ||
U+79BF | 禿 | U+79C3 | 禿 | ||
U+7A05 | 稅 | U+7A0E | 稅 | ||
U+7A42 | 穂 | U+7A57 | 穗 | ||
U+7B5D | 箏 | U+7B8F | 箏 | ||
U+7BB3 | 箳 | U+7C08 | 簈 | ||
U+7BE1 | 篡 | U+7C12 | 簒 | ||
U+7CA4 | 粵 | U+7CB5 | 粵 | ||
U+7D55 | 絕 | U+7D76 | 絕 | ||
U+7DA0 | 綠 | U+7DD1 | 綠 | ||
U+7DD2 | 緒 | U+7DD6 | 緖 | ||
U+7DE3 | 緣 | U+7E01 | 縁 | ||
U+7DFC | 縕 | U+7E15 | 縕 | ||
U+7E48 | 襁 | U+7E66 | 襁 | ||
U+7FAE | 羮 | U+7FB9 | 羹 | ||
U+7FF6 | 翶 | U+7FFA | 翱 | ||
U+80FC | 胼 | U+8141 | 腁 | ||
U+812B | 脫 | U+8131 | 脫 | ||
U+817D | 膃 | U+8183 | 膃 | ||
U+8203 | 舃 | U+8204 | 舄 | ||
U+820D | 舍 | U+820E | 舎 | ||
U+8216 | 鋪 | U+8217 | 舗 | ||
U+8358 | 荘 | U+838A | 庄 | ||
U+83D1 | 菑 | U+8458 | 葘 | ||
U+8480 | 蒀 | U+8495 | 蒕 | ||
U+848B | 蔣 | U+8523 | 蔣 | ||
U+848D | 蒍 | U+853F | 蔿 | ||
U+8570 | 薀 | U+8580 | 薀 | ||
U+85AB | 薫 | U+85B0 | 熏 | ||
U+85F4 | 蘊 | U+860A | 蘊 | ||
U+865A | 虛 | U+865B | 虛 | ||
U+86FB | 蛻 | U+8715 | 蛻 | ||
U+885B | 衛 | U+885E | 衛 | ||
U+886E | 袞 | U+889E | 袞 | ||
U+88C5 | 裝 | U+88DD | 裝 | ||
U+8A2E | 訮 | U+8A7D | 詽 | ||
U+8AAA | 說 | U+8AAC | 說 | ||
U+8ACC | 諌 | U+8AEB | 諫 | ||
U+8B20 | 謠 | U+8B21 | 謠 | ||
U+8C5C | 豜 | U+8C63 | 豣 | ||
U+8D70 | 走 | U+8D71 | 赱 | ||
U+8EFF | 鮄 | U+8F27 | 輧 | ||
U+8F1C | 輜 | U+8F3A | 輺 | ||
U+8F3C | 轀 | U+8F40 | 轀 | ||
U+8FBE | 達 | U+8FD6 | 迖 | ||
U+8FF8 | 迸 | U+902C | 逬 | ||
U+9059 | 遙 | U+9065 | 遙 | ||
U+90A2 | 邢 | U+90C9 | 郉 | ||
U+90CE | 郎 | U+90DE | 郞 | ||
U+90F7 | 郷 | U+9109 | 鄉 | U+9115 | 鄉 |
U+9196 | 醞 | U+919E | 醞 | ||
U+91A4 | 醤 | U+91AC | 醬 | ||
U+9203 | 鈃 | U+9292 | 銒 | ||
U+92B3 | 銳 | U+92ED | 銳 | ||
U+9304 | 錄 | U+9332 | 錄 | ||
U+932C | 錬 | U+934A | 煉 | ||
U+93AD | 鎮 | U+93AE | 鎮 | ||
U+95B1 | 閱 | U+95B2 | 閱 | ||
U+9667 | 隉 | U+9689 | 隉 | ||
U+9751 | 靑 | U+9752 | 青 | ||
U+9759 | 靜 | U+975C | 靜 | ||
U+976D | 韌 | U+9771 | 靱 | ||
U+9839 | 頹 | U+983D | 頹 | ||
U+984F | 顏 | U+9854 | 顏 | ||
U+985A | 顚 | U+985B | 顛 | ||
U+98EE | 飮 | U+98F2 | 飲 | ||
U+9905 | 餅 | U+9920 | 餠 | ||
U+99B1 | 馱 | U+99C4 | 駄 | ||
U+99E2 | 駢 | U+9A08 | 騈 | ||
U+9AA9 | 骩 | U+9AAB | 骫 | ||
U+9AD8 | 高 | U+9AD9 | 髙 | ||
U+9AEA | 髪 | U+9AEE | 發 | ||
U+9B2C | 鬬 | U+9B2D | 斗 | ||
U+9C1B | 鰮 | U+9C2E | 鰮 | ||
U+9CEF | 鳯 | U+9CF3 | 鳳 | ||
U+9D87 | 鶇 | U+9DAB | 鶫 | ||
U+9DC6 | 鷆 | U+9DCF | 鷏 | ||
U+9EAA | 面 | U+9EAB | 麫 | ||
U+9EBC | 么 | U+9EBD | 么 | ||
U+9EC3 | 黃 | U+9EC4 | 黃 | ||
U+9ED1 | 黑 | U+9ED2 | 黒 |
擴展B區使用了輔助平面來擺放漢字,以致不少字處理軟體都不能支持。例如,Microsoft Office2000 或之前的版本,即使計算機擁有擴展B區漢字字體,也只會顯示兩個方格。
另外,因擴展B區在整理上有缺陷,收錄了以下5個本來應該與其他漢字統一的字:
· U+20457 =U+34A8 㒨
· U+2420E =U+3DB7 㶷
· U+27144 =U+8641 虁
· U+23515 =U+204F2
· U+249E9 =U+249BC
而在 WG2 N1155 文件中,亦列出了152對可考慮統一的漢字。