鄭碼輸入法
一種漢字輸入法
現在較為流行的漢字輸入法中還有一種叫做“鄭碼”的輸入法,微軟的Windows95中文版中就裝有“鄭碼”輸入法。它是一種形碼,與常見的形碼有許多相似之處:比如它也是從漢字的結構入手;也要將漢字分解成若干部件;也要按某種規律安排鍵位;也要建立某種漢字的拆分規則等等。
“計算機全漢字處理系統集成”榮獲全國科技信息優秀成果獎
1.《鄭碼》專利名為《字根編碼輸入法及其設備》,是中國著名文字學家、享譽海內外的《英華大詞典》主編鄭易里教授經半個世紀對漢字的研究,後期和鄭瓏高級工程師共同創造的重大科技成果。1989年以其獨到的科學性、新穎性、創造性和實用性獲得中、美、英國專利。中國專利號89108851.2。2.1990年7月,《鄭碼》通過國家主管單位——《全國漢字輸入方案評測工作組》嚴格評測,所有測試項目皆為優級。認為《鄭碼》做到了易學和快速輸入結合,,從各方面均給予了國際領先的最高評價。
3.1990年11月,經我國著名中文信息專家、文字學家、標準化專家、計算機軟體專家的國家級鑒定,肯定了評測結論,指出:《鄭碼》規律性強,把機器檢索和人工檢索有機地結合在一起,在理論上和實踐上為漢字鍵盤輸入字形編碼作出了奠基性的貢獻,並給予《鄭碼》漢字輸入系統在國內外編碼方案中具有領先水平的最高評價。
4.1991年5月,國家語委專家就《鄭碼》編碼系統的文字規律進行審查,認為《鄭碼》漢字輸入系統在基本字根選用,字根筆畫分類、筆形分區、取碼筆順等主要方面率先做到已符合國家語言文字規範,具備了廣泛應用和推廣條件。
5.1991年10月,應用《鄭碼》漢字輸入系統完成世界最大漢字型檔——6萬漢字編碼,同時完成ISO-10646C.J.K20902國際標準漢字編碼。
6.1992年4月,國家技術監督局召開新聞發布會,向國內外宣布中國國家標準科技攻關任務——中國電腦大漢字型檔建成,6萬漢字已全部進入計算機,並同時完成國際標準ISO-10646統一中、日韓的20902個漢字字符集。這是世界上最大的漢字資料庫,選用我國著名文字學家鄭易里教授研究多年的重大發明——《鄭碼》作為檢索系統,並實現了計算機檢索,它的投入使用對國內外中文信息處理事業的發展產生了重大影響。
7.1992年9月,北京111中學學生用《鄭碼》參加“’92海峽兩岸電腦漢字輸入表演賽”榮獲兩項冠軍、兩項亞軍,並創單項離散文本歷屆比賽最高成績。
8.1992年10月,《鄭碼》榮獲北京國際發明金獎和最優秀國際發明大獎。在十幾個參展國家的1300項發明中,榮獲金獎的有70項,而獲得最優秀國際發明大獎的僅3項。
9.1993年2月,中國科學技術協會為總結90年鑒定會後《鄭碼》不斷取得的顯著進展,聘請了國內最權威的信息界專家對《鄭碼》進行評審。評委們也給予國際領先的最高評價。認為《鄭碼》符合國家語言文字規範,和漢字語文識字教學背景一致,易學、快速,適合各種字符集,不但應在全國範圍內加強推廣應用,而且第一次提出宜於在國際上推廣應用。
10.1993年8月,用《鄭碼》的中學生獲全國中學生計算機輸入比賽《浪潮杯》冠軍。
11.1993年9月,《鄭碼》發明人鄭瓏高級工程師以大陸傑出科技人士身份應邀訪問台灣做學術報告,受到台灣中文信息界專家學者熱烈歡迎和讚揚。
12.1993年12月,《鄭碼》選手在新加坡漢字輸入大賽上榮獲王鼎昌總統親自頒發的、唯一的最佳選手金獎。
13.1994年4月,在國際上規模最大、檔次最高的日內瓦國際發明展上,《鄭碼》編碼系統繼北大方正激光照排系統之後,成為我國第二個獲得電子信息方面的金獎項目。評委們評價為:《鄭碼》漢字輸入系統的發明對中國和亞洲地區文化信息事業的發展做出了重大貢獻!
14.1994年5月中國長城計算機集團、中科院聯想集團、北大方正新天地公司聯合簽約,應用推廣《鄭碼》。
15.1994年8月,世界最大的軟體公司——美國微軟公司經四次派不同專家到中易公司考察后,初步確定選用《鄭碼》裝入新開發的Windows3.2和Windows95中。
16.1995年2月,韓國最大的電子集團——三星集團在大陸和台灣廣泛選碼后,最終優選《鄭碼》作為公司中文信息產品使用的輸入法。經對韓國姑娘培訓、試用后獲得很大成功並給予《鄭碼》高度評價,並出版韓文版《鄭碼》教材。從此《鄭碼》在韓國名聲大振,學用人員與日俱增。
17.1995年3月“中央和國家機關司局長領導幹部計算機普及培訓班”經中組部培訓局審核決定選用《鄭碼》作為對中央司局長輸入法教學。
18.1995年8月,國家主管部門根據國家技術監督局和電子部的委託,為對國內外用戶推薦規範化的輸入法,對全國漢字輸入法進行規範化評選。《鄭碼》名列推薦前茅。
19.1995年10月,美國微軟公司正式優選《鄭碼》裝入Windows95中文版中,支持20902國際標準漢字。
20.日本EPSON公司、新加坡、香港等公司都已選用《鄭碼》,並出版繁體字版和日文版《鄭碼》教材。
21.1996年10月,以《鄭碼》為核心的《計算機全漢字信息處理系統集成》項目榮獲國家科委、國防科工委、中國科學院、中國科協、中國自然科學基金會五單位聯合頒發的《全國科技信息優秀成果一等獎》。此為我國科技信息界最高榮譽。
22.到1997年,《鄭碼》已成為中國大陸裝機率(80%)最高的漢字輸入系統。
計算機全漢字處理系統集成”在香港榮獲首屆世界華人發明博覽會大獎
23.1997年末,IBM公司正式簽署《鄭碼》漢字輸入系統專利使用權合同,在中文軟體中全面使用《鄭碼》。24.1998年末,以《鄭碼》為核心的《計算機全漢字信息處理系統集成》項目榮獲“世界華人發明”大獎。香港特區首長董建華親自頒獎。
25.1998年末,以《鄭碼》為核心的《計算機全漢字信息處理系統集成》項目榮獲北京市科技進步一等獎。
26.1998年12月,《鄭碼》漢字輸入系統經國家語委、國家質量技術監督局、中文信息學會、電子工業部等權威專家審核,其文字編碼規律已完全符合新頒布的國家語言文字規範。這是唯一通過此審定的編碼系統。
27.1999年,以《鄭碼》為核心的《計算機全漢字信息處理系統集成》榮獲我國最高獎項《國家科技進步獎》。
28.2000年3月,以《鄭碼》為核心的《計算機全漢字信息處理系統集成》被中國軟體行業協會評為1999年度中國優秀軟體,並向國內外推薦。
29.2001年,Windows所有中文版從1995年全部預裝《鄭碼》。2000年以後,在所有英文版的多文種處理中也預裝《鄭碼》,在WindowsXP中又預裝支持GB18030-2000全部《鄭碼》。
30.2002年,美國IBM公司全面預裝《鄭碼》漢字輸入系統。
31.2004年,以《鄭碼》系統為核心的中易大型古籍全文數字化工程系統,承擔國家圖書館古籍《地方志》全文化工程中發揮關鍵作用。
Windows里的應用
1993年2月12日,中國科學技術協會在北京主持召開了《字根通用碼漢字鍵盤輸入系統》(又稱《鄭碼》)專家評審會。出席會議的有:國家科委、國家教委、國家語委、國家技術監督局、中國中文信息學會等單位的代表。評審委員會由語言文字、中文信息處理、計算機技術和標準化等方面的專家組成。
這次提交大會評審的《鄭碼》,是經過多年理論探討、精心設計、不斷優化后的漢字鍵盤輸入系統,評審委員會對《鄭碼》自1990年鑒定會以來在理論、技術及應用方面所取得的提高和進展進行了技術評審,聽取了技術報告、評測報告、重大比賽成績報告和用戶報告觀看了操作演示,審查了有關技術資料和各種獎勵文件,進行了認真的討論。
評審委員會認為《鄭碼》具有以下特點:
1、該系統理論體系嚴謹完整。在深入研究漢字字形結構規則的基礎上,著重研究了獨體字、部首和字根三者之間的區別與聯繫,確定字根為字形編碼的核心,部首為基本字根的的主體,從而發揮了部首信息的主導作用。循此體系建立的“筆畫--字根--單字--詞語”的檢索序列,在理論上和實踐上為漢字鍵盤輸入字形編碼作出了奠基性的貢獻。
2、該系統在基本字根選用、字根筆畫分類、筆形分區、取碼筆順及根順等主要方面符合國家語言文字規範,與漢語語文識字教學背景一致。
3、該系統字根代碼序列規律性強,編碼規則簡明,易於學習和記憶。基本字根有獨立的代碼,字詞重碼率低,適合配置大容量詞庫。平均擊鍵次數少,宜於高速輸入漢字。
4、該系統對各種漢字字符集的適應性強,簡體字與繁體字的編碼規則一致。處理GB2312與ISO10646GJK字符集以及擴大到6萬漢字大字符集的鄭碼編碼規則一致。並率先完成國際標準ISO10646GJK字符集20902個漢字和大型漢字字形資料庫6萬漢字的編碼及計算機輸入系統,宜於在國際範圍內推廣應用。
5、該系統編碼具有以字的首根作為漢字分集的標誌,能做到計算機輸入和人工檢索統一編碼,統一排序,有利於語文教學、字典檢索與計算機輸入漢字相互結合。
6、包含《鄭碼》全部功能的ZMBIOS實現了與MS-DOS兼容、中西文兼容,支持VGA等圖形卡,輸入字詞和標點符號不需切換。軟體具有多種提示、字詞聯想、拼音查詢、人工造詞等功能,用戶界面友好。外接式《鄭碼》輸入系統,可掛接在流行的各類漢字操作系統下,用可以方便地充分利用原有軟硬體資源。(註:1993年計算機用的是DOS系統)
評審委員會一致認為《字根通用碼漢字鍵盤輸入系統》(又稱:鄭碼),在漢字編碼字符集範圍、詞庫容量、字詞平均碼長、動態字詞重碼率及符合語言文字規範等方面,在形碼漢字鍵盤輸入系統中居國內外領先水平。
評審委員會建議有關單位重視這一成果,在中、小學中試點,在全國範圍內加強推廣應用。
(註:1993年的《鄭碼》評審委員會由中文信息界的15位著名專家組成,主任委員由當時中國中文信息學會理事長、中國中國科學院工程院院士陳力為教授擔任;副主任委員由當時國家語言文字工作委員會副主任傅永和教授擔任。在本手冊中,評審委員會專家簽名篇從略。)
鄭碼的思想最早來自《英華大詞典》的主編鄭易里教授。他在編寫英文詞典的同時,對漢字的結構也做過大量的研究,在20世紀60年代就曾論述過漢字由單元構成的理論,到20世紀80年代,鄭老的女兒鄭瓏接續了他的工作,完成了“鄭碼”輸入法的研究。1993年該方法通過了中國科協主持評審會的評審,並先後獲得了北京國際發明金獎和日內瓦國際發明金獎,先後獲得了中國、美國和英國的專利。專家評審后認為:鄭碼在漢字編碼字符集範圍、詞庫容量、字詞平均碼長、動態字重碼率及符合語言文字規範等方面都取得了突出的成績。
發明者認為“鄭碼”把漢字字典檢索與計算機漢字輸入統一了起來,使它們具有統一的編碼和統一的排序,這與鄭易里教授多年對字典的研究有關,也比較符合漢字的教學規律;鄭碼的編碼方法對各種字符集有較強的適應性,它不但可以用來處理國標漢字字符集,也能用於處理港、台通用的字符集,還可以用於中、日、韓的漢字編碼,1994年初鄭碼完成了電腦大漢字型檔6萬個漢字輸入技術的編碼。
隨著鄭碼的普及,它擁有了較多的用戶,尤其在處理大字符集方面它具有較強的適應性,它的輸入速度也比較快,是一種較好的形碼輸入方法。
《鄭碼》規範、易學、快速、通用,用同一編碼規則不但可以輸入2萬漢字,還可以輸入68000個和10萬個漢字。《鄭碼》曾榮獲北京國際發明金獎和最優秀髮明大獎;榮獲第22屆日內瓦發明金獎。國家主管部門通過評比向國內外用戶廣泛推薦《鄭碼》。中國的中文之星等系統平台選用《鄭碼》,美國Microsoft公司的Windows95/98/NT/2000/XP/Vista/7中文系統選用《鄭碼》,美國IBM公司的OS/2和JAVAOS等許多中文產品也都選用《鄭碼》。然而,在最新的Win8系統中已經沒有鄭碼輸入法了。
鄭易里(右)
榮獲全國科技信息優秀成果獎
在香港榮獲首屆世界華人發明博覽會大獎
鄭碼輸入法
副根中大多數都是大家熟悉的規範的部首。在標準型中也為每個副根規定了一個位嗎,這樣副根也是2碼根。例如副根“丁”的代碼是AI,“氣”的代碼是MY,“穴”的代碼是WO等。
副根的第一個代碼是區碼,第二個代碼(位碼)的確定共有四種情況,分別按如下規則執行:
按副根構形中含有的主根成分確定,例如前述的“穴”中含有O區主根“八”的成分,因此他的位碼為O,這是副根位碼確定的主要方式。
按副根構形中還有的筆畫成分確定,如前述的“丁”中含有一筆豎鉤,因此位碼定為代表一筆豎的區碼I。
按副根構形中含有的其他副根成分確定,如“示”的構形中含有K區副根“小”的成分因此位碼定為K,整個菜碼為BK。
幾個特殊副根的位碼需要強行記憶,如“山LL”、“匕RR”和“已YY”。
基根採用了雙符代碼后可以及大地減少重碼,而且基根代碼的排序非常有規律,使鄭碼具備了字典的查字碼功能,為識字教學與計算機輸入的結合創造了條件。
鄭碼輸入法
為保證單字編碼不超過4個字母,首根之後的其餘基根代碼要根據不同情況決定取捨。一般是先舍位碼,只取區碼的1碼。
例如:櫻--木F貝LO貝LO女ZM--FLLZ
醒--酉FD曰K生MC--FDKM
但是,對於四基根和多基根字,還要將中間一些基根的代碼全部捨棄,只取前兩碼和最末2個基根各1碼。就是說,取兩頭舍中間。
例如:縮--糹Z宀WD(亻)一A白NK--ZWAN
糖--米UF(廣)肀XB口J--UFXJ
詞語取碼方式
為使詞語的代碼不超過4個字母,編碼時要根據詞語中單字數的多少決定基根代碼的取捨。
給詞語編碼時,只需取用基根的區碼。
二字詞
取每個字的首根和次根的區碼各1碼,表述為:2-2
舉例:數量----米/U女/Z曰/K一/A----UZKA
第一主根作為單字參與構詞,在需取2碼時要在其代碼后加“A”(與作為單字用的規則一致)。高頻字參與構詞時,要在其代碼后加“V”。
舉例:土地----土/B地/B----BABV
三字詞
取第一字首根的1碼,取第二字首根和次根各1碼;取第三字首根1碼組成,表述為:1-2-1。
舉例:科技館----禾/M扌/D十/E飠/O----MDEO
四字詞和多字詞
取前四字的首根各1碼組成,表述為:1-1-1-1
舉例:
輕描淡寫----車/H扌/D氵/V冖/W----HDVW
出污泥而不染---凵/Z氵/V氵/V而/G(不氵)---ZVVG
簡碼的取碼方式,對一些常用字或詞,按一定的規則,取其常規碼中的1-3個字元作為簡略編碼,稱為簡碼。簡碼對專職操作員提高輸入速度大有好處,非專職操作員不必特別去記憶。
一級簡碼:對應於26個高頻字。
二級簡碼用該字首根和次根各1碼組成。
舉例:
把--DY找--DH管--MW
需--FG取--CX
個別常用詞也有二級簡碼,就是取每字第一個基根的區碼。
舉例:
中國--JJ國家--JW一定--AW我們--MN政府--AT開展--AX
北京--TS上海--IV天津--AV合作--ON各種--RM採取--PC
二基根字:取第一個基根的區碼和第二個基根的區位碼,如:處--RID。
三基根和多基根字:依次取第一、第二和第三個基根的區碼,如:散--EQM。
鄭碼輸入法
漢字是方塊圖形文字,每字由一至數個單元構成。例如“師傅”的“傅”字由單元“亻、専(音fù)”構成,其中的“専”又由單元“甫、寸”構成,可見“亻、甫、寸”是構成“傅”字的基礎單元,構字單元的排列順序,用圖形可表示為(見圖1.1)。如果把“亻”換成“氵”,在上面加“⺮”頭便構成“簿”字;換成“艹”頭又成為“薄”字。以“薄”為例,構成“薄”字的基礎單元是“艹、氵、甫、寸”,用圖形表示為(見圖1.2)。而基礎單元由筆畫構成,例如“寸”由筆畫“一亅丶”構成。用於漢字編碼,將構字的基礎單元叫做“字根”或叫做“部件”,構字的最小單元是筆畫。也就是說,“薄”字由“艹、氵、甫、寸”4個字根構成;“札”字由字根“木”和筆畫“(折)”構成。對這些字根我們並不陌生,因為許多字根就是我們熟悉的部首。
《鄭碼》給一部分字根安排了代碼,這部分字根叫做“基本字根”。將基本字根和筆畫的代碼按一定規則代入即得到漢字的編碼。例如:有基本字根“氵V、甫F、寸D、艹E、⺮M、亻N、木F、又X”和筆畫“乚(折)Z”,得到漢字的編碼:“薄EVFD、簿MVFD、札FZ、權FX、樹FXD、符MND”。這就是《鄭碼》編碼的基本原理。
用鍵盤輸入編碼,通過機內碼轉換可在顯示屏看見輸入的漢字,同時可用印表機或激光發排機將漢字輸入,印在紙張或膠片上,這樣便完成了漢字輸入和輸出的全過程。
第一條:要按照《鄭碼》的基本字根總表上所列出的基根(包括形近根),把漢字分解成基本字根才能編碼。如果沒有合適的基根,就要進一步分解成筆畫。例如:補--衤卜懇--艮心濾--氵虍心書--乛丨丶
第二條:漢字分解后,基根和筆畫排列的順序叫做“根序”。根序的確定有三種情況:l.左右字、上下字以及由單筆畫組成的字,根序與規範的書寫順序一致(見上例中的“補、懇、濾、書”四個字的分解)
2.具有相接、交叉和相嵌結構的字,第一筆先寫的基根或筆畫排列在前。例如:([]方括弧內是例字)相接結構的字:夭--丿大[沃笑];
疋--乛止[蛋疏];
交叉結構的字:束--木口[整辣];
夷--大弓[姨];
屯--七凵[純鈍噸];
相嵌結構的字:亘--二曰[桓恆];
僉--人二(橫三點)[檢驗]
淵--氵(撇-豎)米;
肅--肀(撇-豎)八[蕭簫]
複合結構的字:決--冫乛大[缺炔](又有相接又有相交);
3.對於包圍字和包孕字,要將第一筆先寫的基根排在第一位。
因為是以基根為單位排列根序。例如:
困—囗木聞—門耳函—乛氺凵式—弋工
載—車庫—廣車匭—匚車九趙—走乂
但是,為了檢索的快捷和歸納的劃一,對於有“辶、廴”的字,確定根序時,要將“辶、廴”排列在第一位。
例如:“達—辶大”、“延—廴丿止”。
總之,給單字或詞語編碼,就是按照編碼規則依次取基根的代碼組成字詞的編碼。根序搞錯編碼也隨之而錯。因此,正確認識單字的根序十分重要。
第三條:單字和詞語的編碼不能超過4個字母,因此要根據單字或詞語中基根數的多少決定基根代碼的取捨,這種取捨代碼的方法叫取碼方法(詳見以下說明)。