排檢法
排檢法
排檢法是指對一定數量的文獻或其他信息記錄或文獻實體按某一標識及規則進行排序,並按同一標識及規則進行查檢的組織方法。排檢法應用十分廣泛,如檢索工具的編製和檢索系統的建立,工具書的編製,文獻的排架,電話簿、電碼本、字符集的編製,各種名單的編排,等等。常用的排檢法有分類排檢法、字順排檢法、號碼排檢法、時序排檢法、地序排檢法等。派生索引法 利用已有的目錄、索引,選編專題目錄、索引的方法。
對漢字單字或片語進行排序,以便查檢的方法。又稱漢字檢字法。漢字排檢法除用於詞典、百科全書等工具書的編排外,還普遍用於字順目錄、索引以及文書、檔案中各種名稱等的排序。在印刷排版、電子計算機漢字信息處理等方面也具有重要作用。
中國漢代以前尚未出現正規的檢字法。當時的字書均按漢字的意義排列。東漢許慎編著的《說文解字》首創部首檢字法。梁代顧野王編《玉篇》,遼代僧人行均編《龍龕手鑒》,北宋司馬光等編《類編》,金代韓孝彥編《四聲篇海》,明代梅膺祚編《字彙》,先後對部首法進行了改進。直至清代 《康熙字典》 以及近現代《中華大字典》、《辭源》、《辭海》等都以部首法作為主要檢字法。在部首查字法盛行時,人們又根據漢語的聲韻調關係編列排檢漢字,其中以三國魏李登的《聲類》為最早,當時的聲韻調都是用漢字來代替的。爾後又出現一種作為輔助部首檢字法的筆畫法,並在此基礎上產生依漢字起筆分類,以及將筆畫、筆形相結合的檢字法。近代西方文化輸入中國后,受西文字典及其排序方法的影響,曾出版了多種以羅馬字拼音編製的字典。20世紀20~30年代新檢字法蓬勃發展,先後出現了高夢旦的改良部首方案、林玉堂的漢字索引制、杜定友的漢字形位排檢法。沈祖榮和胡慶生的12種筆畫檢字法、王雲五的四角號碼法等。據蔣一前《中國檢字法沿革史略》統計,至1933年共有檢字法77種。1958年以後,由於漢語拼音方案公布,遂產生多種漢語拼音排檢法。1961年11月,由文化部、教育部、中國文字改革委員會、中國科學院語言研究所聯合組成漢字查字法整理工作組,於1964年4月提出4種標準草案推薦使用,即改良部首查字法、四角號碼查字法、筆形查字法、拼音字母查字法。80年代,漢字排檢法研究與電子計算機技術相結合,已研製出各種漢字信息處理方法及漢字編碼技術。漢字排檢法已有數百種,但多數因使用不便而被淘汰;即使較為通用的幾種也優劣並存,須在實踐中不斷完善。漢字排檢法可分為 3種類型:義序排檢法、形序排檢法和音序排檢法。
形序法又稱形序排檢法,是按漢字形體結構的某些共同特點進行排檢漢字的方法,包括部首法、筆畫法、筆形法等。
部首法實際上是對漢字偏旁的分類,即將相同偏旁的合體字歸為一部,每部統屬的字,列於該部之首的偏旁即為“部首”。再按部首筆畫來排檢漢字的一種查字法。部首溯源於許慎編《說文解字》,字體以小篆為準共列540個部首。隨著漢字形體的改革與發展,部首幾經歸併為214個,並經《康熙字典》採用后遂得通行,故亦稱為“康熙字典部首”。舊版《辭源》、《辭海》及《中華大字典》等辭書,都採用這種方法。解放后新編辭書對康熙字典部首又進行了多次改革。《新華字典》簡化為189個,《現代漢語詞典》減為188個。 《辭海》(1979年版)》在214個部首的基礎上進行刪並、分立、改立或新增加為250個部首。1982 年中國文字改革委員會和上海辭書出版社又將其重新調整為200個,並據此編成《漢語大字典》、《漢語大詞典》。
部首法不僅用於編排字、詞典正文,而且也廣泛用來編排字詞典的輔助索引和各種目錄、索引等檢索工具。如《現代漢語詞典》、《四角號碼新詞典》等都分別為正文編有部首索引。利用部首來查檢不辨音義的字詞,務必掌握各辭書的定部原則。例如《康熙字典》、《說文解字》、《漢語大辭典》等的部首即“以義定部”的原則。更多地體現了漢字為表意體系文字特點,如六書中的象形、指事、會意、形聲都是造字之法,從中可辨別本義。如象形之日、月;指事之上、下;形聲之江、河;“信”從人、從言是為會意等。1979年版《辭海》則按“字形定部”。同是一個“相”字,以義歸部定“目”部;以字形定部取“木”部。對各辭書的定部原則可通過其“編輯凡例”或“部首查字法查字說明”等來了解其具體方案。請參見本章附錄:①《辭海部首查字法說明》;②《辭海部首筆形索引》;③《漢語大辭典部首總表》;④《漢語大辭典部首排檢說明》。
筆畫法是按漢字筆畫數之多少為序來排檢漢字的查字法。這在工具書很多,諸如《中國人名大辭典》、《馬克思主義辭典》、《室名別號索引》等等。其他一些工具書也編有筆畫索引,如《辭海·經濟分冊》、《中國歷代人名辭典》、《經濟管理大辭典》以及《辭源》的《難檢字表》等。
筆畫法原理簡單,使用卻困難。這是由漢字筆畫結構多種多樣,書寫體與印刷體筆畫又多有不同,而且每一筆畫下所包括的字數又很不平衡所決定的。如《辭海1979年版)》在8—15 畫下的筆畫數內各含單字1000個以上,均給查字帶來諸多不便。
筆順法是按照漢字的筆形順序排字的方法。漢字的基本筆形有點、橫、堅、撇、捺、折(、— │'└ ),書寫起筆只用(、—│')5種筆形。有的只用第一筆(起筆)筆形;有的用各筆的順序排列,而且筆順也不一致。其中有用4 筆的,其筆順即有“元亨利貞”(─、 '│)、“江山千古”(、│'─)和“寒來暑往”(、─│')的起筆順序排的;《漢語大辭典》的《部首總表》及其條目單字的排列則採用“─│'、乙”為序。而《辭海(1979年版)》的《筆畫查字表》卻用“—│'、 ”的起筆筆形為序。
用部首法和筆畫法、筆順法編排的工具書各有優缺點。在使用前除需通讀各工具書的有關編排說明外,還應充分利用其為正文所編的各種輔助索引,以彌補單一途徑檢索上的不足。
號碼法是形體法的一種變形。它把漢字分解為各種筆形,並用阿拉伯數字作為代碼,然後將其聯成一組數字,再依數字大小為序排列漢字。這種方法的優點是忠碼位置固定,檢索快;缺點是筆形取號不易掌握。號碼法有多種,其中使用最為廣泛的有四角號碼法,其他諸如中國字庋擷法、三角號碼法等則使用甚少。
四角號碼法是根據方塊漢字的特點而發明的一種查字法。分別以不同代碼代表漢字四個角的筆形並聯成為四位數的號碼,再依號碼大小為序排列漢字即成為四角號碼查字法。四角號碼查字法,具有不論部首、不數筆畫,不知讀音也能見字知碼和按號查字的特點。但其取號規則繁瑣,筆形辨認不準取號也頗周折。
四角號碼最初由王雲五提出,稱為“四角號碼檢字法”,1928年編成《四角號碼學生字典》。1964年做了修改,改稱“四角號碼查字法”,亦稱為“新四角號碼法”。目前一些工具書或用新法或用舊法編排正文或輔助索引。諸如《四角號碼新詞典》、《現代漢語詞典》的正文以及《中國叢書綜錄》第三冊“子目書名索引”和“子目著者索引”即用新法編排;《辭源》的輔助索引則用舊法編排。
四角號碼法把漢字筆形分為10種,分別用0到9作為代碼。其口訣是:
橫1 豎2 3點捺,叉4 插5 方框6;
7角 8八 9是小,點下有橫變0頭。
取號時,依漢字的左上角、右上角;左下角、右下角的順序分別取其筆形代碼並聯成一組,即為該字的四角號碼。為便於排列,對號碼相同的字還要取第五角作為“附角”號碼寫於未位數的下方以示區別。如“經”字的號碼為27112。新舊法對取角規則有所不同,如“天”字舊號碼為10430;新號碼為10804。《四角號碼新詞典》、《現代漢語詞典》等均附有“新舊四角號碼對照表”可供參考。具體取角配號方法請參見本章附錄:⑤《四角號碼查字法》;⑥《新“四角號碼查字法”和舊“四角號碼檢字法”比較,主要修改的項目》的影印件。
中國字庋擷法,為原燕京大學引得編纂處於30年代為編製我國古籍索引時所採用的排檢法。“庋擷”(guǐ xiè)二字意為放入取出。該法以“中國字庋擷”代表漢字的五種形體結構,並用Ⅰ—Ⅴ為代碼;再拆“庋擷”二字的筆形分為10種,用0—9作為代碼。其取號原理與四角號碼法相似,但代碼有別。如把“庋”字的筆畫筆形分拆為“、— / 十 又”5種筆形,分別用“0、1、2、3、4”作為代碼;把“擷”字的筆畫筆形分拆為“才、糹、廠、目、八”5種筆形,分別用“5、6、7、8、9”作為代碼。並根據該字的形體結構來定其取號先後次序。如“中”字體依次為左上、右下、左下、右下;“國”字體先為外部左上、右上,後為裡面左上、右下;“字”字體先為上半部左上、右下,後為下半部左上、右下;“庋”字體先為左斜邊的右上、左下,後為右下部的左上、右下;“擷”字體先為左半部的左上、右下;後為右半部的左上、右下。取得號碼后,再算該字有幾個方格,然後把方格數加在號碼之後,無方格的加0,超過9個方格的仍為9。取號順序及其號碼組成為如下格式:依字體取得的號碼/四角筆形號碼、方格數的順序。如“回”、“田”、“夕”三個字的號碼分別為“Ⅱ/88881”、“Ⅱ/888304”、“Ⅰ/28220”。
這種排檢法十分繁瑣,不便推廣使用。自從燕京大學引得編纂處以此法編成60多種古籍索引以後,為解決使用上的困難,近年部分影印出版這些引得時,都增加了四角號碼檢字和漢語拼音檢字。亦可先利用筆畫查出各字的庋擷號碼后,再查索引正文。
這是起筆筆形法的號碼化。它把漢字起筆筆形分為橫、直、點、撇、角,並分別用“1、2、3、4、5”作為代碼。將書名每個字的起筆連成5位數的號碼(超過5個字的書名也只取5個號碼,書名中有非漢字的則用0作為代碼)。決定起筆的原則是先上後下,先左後右;先外后內。這種檢字法僅為《全國總書目》於1954年以前書名索引所採用。
音序排檢法是按照字音及表示讀音的音符順序排列漢字的方法。包括漢語拼音字母排檢法、注音字母排檢法、韻部排檢法等。其優點比較精確、簡捷,缺點是不知讀音就無法查字。日文工具書用《五十音圖》音序排檢法。
此法以《漢語拼音方案》的字母表順序排列字頭,同一字母的再逐一類比,定其先後,如《漢語主題詞表》;同音字再按聲調(陰平、陽平、上聲、去聲)排列。目前多數中文工具書和索引都採用漢語拼音字母排檢法排列正文條目。如《現代漢語詞典》、《新華字典》等。《中國大百科全書》的條目編排還輔以筆畫筆形。
注音字母是由漢字偏旁改造而成的40個字母,其中分聲母24個、韻母16個。它以北京語音為標準音,1958年前後出版的字(詞)典大多數都以注音字母註明其讀音,如《新華字典》1956年、1959年版和《同音字典》等。目前台灣省出版的工具書仍然採用。其方法是先聲母、后韻母,同聲同韻的字母按陰、陽、上、去四聲的次序排列。
韻部排檢法也稱“聲韻法”,是我國古代按音韻排列漢字的一種方法。按韻部編排的字典稱為“韻書”。我國在不同的歷史時期有不同的韻部。宋代《廣韻》分206個韻部;為《集韻》所沿用。自宋以來流行的平水韻(《平水新刊禮部韻略》)將其刪並為106韻,從而成為文人作詩用韻的規範。一些主要工具書也按平水韻編排,如清代編的《佩文韻府》、《經籍纂詁》以及現代編的《辭通》等都按詞目的未字分韻編排。《九史同姓名略》則按條目首字分韻編排。
利用韻部編排的工具書來查字詞,可通過新印本所附的索引先查出該字的韻后,再按韻部去查。如新印本《佩文韻府》和《辭通》都編有首字四角號碼和筆畫索引。亦可先利用有關的字典查出該字的韻后,間接來查。
分類排檢法,是按照知識或文獻內容性質或學科體系等加以系統排檢的方法。為古今中外檢索工具書和參考工具書主要編排方法之一。如書目、索引、類書、政書、年鑒、手冊等,既有按一定的分類體系單獨編排的;也有與時序、地序排檢法配合使用的。
古代字書《爾雅》開 了按事物性質分類編排的先河。後來成為古代類書、政書的主要編纂體例;現代出版的一些手冊、年鑒等也有採用這種方法進行編排。
古代類書、政書的列類是傳統認知結構的產物。它以儒家文化為核心,沿用了《爾雅》所建立的“天、地、人、事、物”分類體系。對其所輯錄的事、文編排次序,先列天地帝王、次為典章制度、后及其他事物的編序方法,無不反映了敬天尊君觀念。例如《藝文類聚》列類42部以及《古今圖書集成》設置的曆象、明倫、理學、經濟、博物6編31典,其類目均統屬於天、地、人、事、物的框架之內。由於人們認知事物的局限性,同在事物往往被分散於各類,而且類目概念模糊混亂。如《古今圖書集成》的“經濟彙編”、“方輿彙編”、“博物彙編”均摘有古代經濟史料。這不僅類目概念與當代的認識存在極大的差別,而且同一性質的事物或文獻也不能集中歸類,都給檢索造成諸多不便。這是需要注意的。
四部分類法是我國古代書目分類體系之一。它把古代圖書分為經、史、子、集四大部類,每一大部類下再分為若干類、類下再分目。如四部書目分類體系的集大成者《四庫全書總目提要》即在四部之下分為44類。當代所編的《中國叢書綜錄》第二冊《子目分類目錄》亦按經、史、子、集四部編排。《中國古籍善本書目》則分為經、史、子、集、叢書5部48類。
又稱時序排列法。這是一種按時間先後次序編排文獻資料的方法。年表、歷表、大事記以及記載人物生平事迹的年譜等工具書,都採用這種編排方法。如《中國歷史紀年表》、《中華人民共和國經濟大事記(1949年10月—1984年9月)》以及《中國財政金融年表》等,均嚴格以時間先後為序編排資料。只需按年索事,一查便得。個人生卒年表、年譜及其著述目錄,或採用順時序法或採用逆時序法進行編排。時序法便於理清事物發展的脈絡,從中可查考某些帶有規律性的知識記錄。但利用按時序法編排的工具書如“生卒年表”或“年譜”來查考人物資料時,需要輔以人名索引才能使用。例如利用《歷代人物年裡碑傳綜表》,即先查人名字順索引后查所需的人物事迹。
地序法是按照地理區域編排文獻資料的方法。主要用於編製地圖集、地方資料等工具書,以及各類圖書中凡涉及世界各國和國內各地區的,也都採用地序法。如《中國名勝詞典》、《中國地方志聯合目錄》、《中國邊疆圖籍錄》和《歐洲金融年鑒》以及《中圖法》等分類法中的《地區復分表》均按地序法編排有關資料。這些工具書多數附有地名索引,以便在不知地名所屬地域時,按地名查找。此外,還有一些採用其他方法編排的工具書,如《歷代職官表》(清)紀昀等編,上海古籍出版社1989年影印本。其所列的76個表即以清代官製為綱,逐級排列各政權機構的職官。所附官名索引,是按官名查檢的工具書。
漢字編碼法是供計算機信息處理用的方法。其中五筆字型即由查字法發展而來的一種漢字輸入法。它根據漢字的字型結構,從中選定130個部首作為字根,加以分類、編碼,並將其排在25個英文鍵位上。通過字根的組合,可以打出漢字或片語,從而達到見字知碼、操作方便、快速輸入的目的。五筆字型輸入技術已在中內外得到廣泛的推廣和使用。
排檢法主要類型圖