自動標引
自動標引
自動標引,是利用計算機系統從擬存儲、檢索的事實情報或文獻(題目、文摘、正文)中抽取檢索標誌的過程。檢索標誌從機器詞典中取出的叫賦詞標引,從文本中抽出的叫抽詞標引。抽詞標引,又可分為全關鍵詞標引和主關鍵詞標引。從文本中抽取全部關鍵詞作為檢索標誌的叫全關鍵詞標引;只從文本中抽取表示主題的關鍵詞作為檢索標誌的叫主關鍵詞標引。
目錄
自動標引與計算機情報檢索、應用語言學和人工智慧的研究密切相關。自動標引系統是情報檢索系統的一個子系統。自動標引過程與人工標引過程相似,也要經過主題分析、查詞表和將自然語言轉換為情報檢索語言的若干階段。自動標引的特點是標引速度快,標引的前後一致性好,在隨機存儲介質容量允許、軟體檢索功能具備的情況下,可以實現文摘、甚至全文的無人工標引自動檢索。目前自動標引系統抽出的表述文獻主題的主關鍵詞準確性較差,還不能完全代替人工標引。
自從1957年美國 IBM公司的H.P.盧恩關於文獻自動標引的論文發表后,各國曾進行大量的自動標引實驗研究。在主要的國際聯機檢索系統中,已實現了全關鍵詞自動標引和檢索。主關鍵詞自動標引也建立了多個實用系統。自1980年起,中國對漢語自動標引和分詞進行了實驗研究,科技文獻自動分詞初步達到了實用水平。並正在應用人工智慧、語言學和決策論等方法研究解決自動標引中存在的問題。
自動標引系統 一個自動標引系統通常包括文本輸入、詞典、抽詞、知識庫、綜合與轉換和輸出等 6個子系統。
①文本輸入子系統 對事實情報或文獻文本進行自動標引前,必須使之變為機器可讀形式,並按一定格式加以組織,這就是輸入子系統的任務。通常,輸入子系統處理的結果是將文本以資料庫或文檔中的記錄形式存儲在磁介質上。每個記錄中包括供標引用的若干欄位或子欄位(如題目、文摘、文本段落等)。
②詞典子系統 自動標引詞典是存儲在計算機系統內的一部或多部詞表。因標引的目的要求不同,詞表的結構和組織也有很大差別。在賦詞標引系統中,詞表通常是手工標引用的受控詞表(如主題詞表)。這種詞表中的詞之間具有整體-局部、種-屬、同義和相關關係。在抽詞標引系統中,全關鍵詞標引詞表是一種禁用詞表(亦稱非用詞表),即詞表中收入的詞都不作為檢索標誌;而主關鍵詞標引詞表中的每個詞具有若干信息,如詞類,組配等。在標引過程中,通過查找機器詞典確定關鍵詞與非用詞、片語構成與切分。
③抽詞子系統 通過查找機器詞典中存儲的信息,對輸入的文本逐字逐句進行掃描,抽出供綜合與轉換子系統處理的檢索標誌。對於拼音文字來說,詞間有空格分隔,可按空格進行逐詞掃描,作抽詞處理。對於漢語這樣的拼音文字來說,詞間沒有空格,不能進行逐詞掃描。因此,漢語抽詞子系統的首要任務,是將連續書寫的漢字文本切分為有空格分隔的詞。漢語自動切分,又稱漢語自動分詞,主要是通過掃描取文本的一部分同詞典比較進行分詞。分詞的方法主要有:最長匹配法、最短匹配法、設立切分標誌法、逆向掃描二字前進法和非用字後綴表法等。
④知識庫子系統 是人工標引中選詞知識形式化的規則集合。總結人工標引經驗,人們發現,人工標引包括主題分析、選擇表述主題的關鍵詞和把關鍵詞轉換為規範主題詞 3個階段。這些經驗通過主題句法、頻率法、概率法、加權法、語法分析法和語義分析法等方法加以形式化,用語義網、框架等知識表達方式構造成知識庫。
⑤綜合與轉換子系統 依據知識庫提供的知識,對抽詞子系統抽出的全部詞語進行統計、分析和綜合,選取表達主題的關鍵詞,然後,按詞典子系統的規範化規則,將選出的關鍵詞轉換為規範化詞語。
⑥輸齣子系統 將選取的關鍵詞存入到文本記錄的有關欄位,並將記錄輸出到要求的介質上。