后控詞表

后控詞表

后控詞表:也稱為詞間關係詞表,它是利用受控語言的基本原理和方法編製的自然語言檢索用詞表。

目錄

正文


概念
后控詞表:也稱為詞間關係詞表,它是利用受控語言的基本原理和方法編製的自然語言檢索用詞表。
后控詞表的四種模式:
(1)標引控制+檢索控制 同時在標引和檢索階段使用詞表;
(2)標引控制+檢索不控制 只在標引階段使用詞表,檢索階段直接使用自然語言檢索;
(3)標引不控制+檢索控制 用自然語言標引,但通過控制詞表檢索,具體檢索用詞即可以是自然語言,也可以是詞表中的詞;
(4)標引不控制+檢索不控制 標引和檢索時都使用自然語言,不使用任何詞表。
這四種方式中,第一、二種方式為先控系統模式,第四種為純自然語言檢索模式,而所謂后控制檢索就是上面所提到的第三種模式。
后控”是指在系統輸入階段不進行控制,而在系統輸出階段進行一定的控制,它把“控制”不放在標引階段,而放在檢索階段。后控檢索一般通過後控詞表來實現。
后控制技術:后控制技術是指檢索系統在標引階段使用自然語言,不對標引進行嚴格控制,而在檢索階段才對檢索詞進行控制的一種自然語言檢索優化技術。
自然語言與受控語言的比較:
分類語言 優點:能夠將同一學科性質的文獻信息集中,以滿足人們從學科門類對事物對象與問題進行“族性檢索”的需要,便於檢全某一學科或專業的文獻信息,具有較強的系統性;缺點:將同一主題的文獻信息分散在各個學科中,檢索專深課題的直接性較差,標識不直觀,不易為用戶掌握;
主題語言 優點:能夠將同一主題的文獻加以集中,適應人們對事物對象與問題進行“特性檢索”的需要,檢索專深課題的直接性較強,標識直觀;缺點:不能很好地體現知識內容之間的學科性質區分割學科之間的連續,將同一學科性質的文獻分散於各個主題之間;
自然語言 優點:自然語言標識更加專指,更加符號用戶的語言習慣,特別適合檢索專深課題和最新出現的概念辭彙,檢索直接性更強;缺點:由於不加規範,不能顯示語詞之間的關係,難以進行族性檢索,特性檢索的檢索效率也不高;
對應實例:
自然語言:微型計算機微機微電腦,個人電腦
受控語言:微型計算機
優點
后控詞表與自然語言檢索系統的結合,在很大程度上彌補了純自然語言檢索系統由於自然語言的“不受控制”產生的缺陷,大大提高自然語言檢索系統的性能和效率。
特點
①不承擔標引功能,只用於檢索控制。是一種通過揭示和建立詞語之間的聯繫,進行相關檢索的工具。
②辭彙控制不如先控詞表嚴格。通常進行同義詞、近義詞及不同書寫形式的控制,必要時也可以根據需要適當處理等級關係和相關關係,對等級結構的形式和辭彙關係的具體處理要求一般因系統的特點而變化。
人口詞豐富。一般應廣泛收入常用檢索詞的同義詞、近義詞、俗稱、縮寫、流行語、俚語,甚至外文、部分常見的錯誤輸入形式等,使得用戶可以通過詞表,從儘可能多的語詞的角度進行查找。
④動態性強。應能夠及時反映標引和檢索的變化,是一個隨著標引關鍵詞、檢索詞的使用情況動態增長的詞表。
⑤有較強的靈活性和自由度。后控詞表由於沒有規範標引的壓力,其編製不必像先控詞表那樣系統、嚴密,可以根據需要,對有關領域或對象的辭彙有選擇地進行處理。例如,可以根據檢索頻率,有針對性地對高頻詞進行整理處理。又如,可以根據使用需要,有針對性地對有關範疇的辭彙進行處理等。
⑥具有面向文獻和用戶的特點。先控詞表雖然也強調文獻保證和用戶保證,但不如后控詞表直接。后控詞表一般是直接在自由標引或檢索詞的基礎上進行處理的,辭彙往往更加專指,分佈上也相對集中,就重點專題而言,收詞應是最充分、最完備的,具有兼容工具的功能。
⑦詞問關係不同於傳統詞表。后控詞表中,等同關係的顯示,實際上不是用代關係,而是一種互見關係(不同的語詞形式都可以用作標引詞或檢索詞),必要時也可以根據檢索需要確定不同詞之間的顯示順序。