截詞檢索

預防漏檢、提高查全率的技術

截詞檢索是預防漏檢提高查全率的一種常用檢索技術,大多數系統都提供截詞檢索的功能。截詞是指在檢索詞的合適位置進行截斷,然後使用截詞符進行處理,這樣既可節省輸入的字元數目,又可達到較高的查全率。尤其在西文檢索系統中,使用截詞符處理自由詞,對提高查全率的效果非常顯著。截詞檢索一般是指右截詞,部分支持中間截詞。截詞檢索能夠幫助提高檢索的查全率。

分類


在截詞檢索技術中,較常用的是后截詞和中截詞兩種方法。如果按所截斷的字元數目來分,有無限截詞和有限截詞兩種。截詞算符在不同的系統中有不同的表達形式,需要說明的是並不是所有的搜索引擎都支持這種技術。
截詞檢索就是用截斷的詞的一個局部進行的檢索,並認為凡滿足這個詞局部中的所有字元(串)的文獻,都為命中的文獻。按截斷的位置來分,截詞可有后截斷、前截斷、中截斷三種類型。
不同的系統所用的截詞符也不同,常用的有?、$、*等。分為有限截詞(即一個截詞符只代表一個字元)和無限截詞(一個截詞符可代表多個字元)。下面以無限截詞舉例說明:
(1)后截斷,前方一致。如:comput?表示computer,computers,computing等。
(2)前截斷,後方一致。如:?computer表示minicomputer,microcomputer等。
(3)中截斷,中間一致。如?comput?表示minicomputer,microcomputers等。
截詞檢索也是一種常用的檢索技術,是防止漏檢的有效工具,尤其在西文檢索中,更是廣泛應用。截斷技術可以作為擴大檢索範圍的手段,具有方便用戶、增強檢索效果的特點,但一定要合理使用,否則會造成誤檢。

后截詞

是指檢索結果中單詞的前面幾個字元要與關鍵字中截詞符前面的字元相一致的檢索。具體包括:
(1)有限后截詞 主要用於詞的單、複數,動詞的詞尾變化等。如books可用book?代表,其中截詞符?(也稱為通配符)可以用來代替0個或1個字元,因此,book?可檢索出包含有book或books詞的記錄;acid??可檢索出含有acid,acidic 和acids的記錄。
(2)無限后截詞 主要用於同根詞。如solubilit用solub?處理,可檢索出含有solubilize,solubilization,soluble等同根詞的記錄。由此可知,在詞根后加一個"?",表示無限截詞符號。

中截詞

中截詞也稱屏蔽詞。一般來說,中截詞僅允許有限截詞,主要用於英、美拼寫不同的詞和單複數拼寫不同的詞。如organi?ation可檢索出含有organisation和organization的記錄。由此可知,中截詞使用的符號為"?",即用"?"代替那個不同拼寫的字元。
從以上各例可知,使用截詞檢索具有隱含的布爾邏輯或(OR)運算的功能,可簡化檢索過程。

方式


截詞檢索的方式有多種,可以分為有限截詞、無限截詞和中間截詞。

有限截詞

有限后截詞主要用於詞的單、複數,動詞的詞尾變化等。將“n”個截詞符放在檢索詞(關鍵詞、主題詞)的詞幹或詞尾可能變化的位置上。

中間截詞

一般來說,中間截詞僅允許有限截詞,主要用於英、美拼寫不同的詞和單複數拼寫不同的詞。例如:wom?n woman women

無限截詞

截去某個詞的尾部,是詞的前方一致比較,也稱前方一致檢索。在檢索詞(關鍵詞、主題詞)干后加1個截詞符“?”或“*”。表示該詞尾允許變化的字元數不受任何限制。例如:comput* 可檢索出 computer、computing、computers、computering、computeriation 等詞的記錄。任何一種截詞檢索,都隱含著布爾邏輯檢索的“或”運算。採用截詞檢索時,既要靈活、又要謹慎,截詞的部位要適當,如果截得太短(輸入的字元不得少於3個),將影響查准率。另外,不同的檢索系統使用的截詞符不同、各資料庫所支持的截斷類型也不同。

其他檢索方式


對於常見的三種布爾邏輯算符AND,OR,NOT,在搜索引擎中,該功能則表現不同。首先是受支持的程度不同,"完全支持"全部三種運算的搜索引擎有InfoSeek,AltaVistaExcite等;在其"高級檢索"模式中"完全支持",而在"簡單檢索"模式中"部分支持"的有HotBotLycos等。其次是提供運算的方式不同:大部分搜索引擎採用常規的命令驅動方式,即用布爾算符(AND,OR,NOT)或直接用符號進行邏輯運算,如 AltaVista、Excite;有的用“十”和“一”號替代“ AND/NOT”進行運算;也有部分引擎使用菜單驅動方式,用菜單選項來替代布爾算符或符號進行邏輯運算,如 HotBot,Lycos中均提供了兩個菜單"All the words"和"And of the words"分別代表 AND和OR運算,天網的"精確匹配"、"模糊匹配"原理與此相似。
片語檢索(phrase)
片語檢索是將一個片語(通常用雙引號""括起)當作一個獨立運算單元,進行嚴格匹配,以提高檢索的精度和準確度,它也是一般資料庫檢索中常用的方法。片語檢索實際上體現了臨近位置運算(Near運算)的功能,即它不僅規定了檢索式中各個具體的檢索詞及其相互間的邏輯關係,而且規定了檢索詞之間的臨近位置關係。幾乎所有的搜索引擎都支持片語檢索,並且都採用雙引號來代表片語,如"信息教育"。但在Infoseek中,除了用雙引號外,還使用了短橫線"-"來代表片語,如 digital-library-definition,區別在於以"-"表示的片語不區分大小寫。
截詞檢索(truncation)
截詞檢索也是一般資料庫檢索中常用的方法。但在一般的資料庫檢索中,截詞法常有左截、右截、中間截斷和中間屏蔽4種形式。而在搜索引擎中,目前多隻提供右截法。而且搜索引擎中的截詞符則通常採用星號*。如educat*。相當於education+educational+educator。
欄位檢索(fields)
欄位檢索和限制檢索常常結合使用,欄位檢索就是限制檢索的一種,因為限制檢索往往是對欄位的限制。在搜索引擎中,欄位檢索多表現為限制前綴符的形式。如屬於主題欄位限制的有:Title,Subject,Keywords,Summary等。屬於非主題欄位限制的有:Image,Text等。作為一種網路檢索工具,搜索引擎提供了許多帶有典型網路檢索特徵的欄位限制類型,如主機名(host);域名(domain);鏈接(link);URL(site);新聞組(newsgroup)和 E-mail限制等。這些欄位限制功能限定了檢索詞在資料庫記錄中出現的區域。由於檢索詞出現的區域對檢索結果的相關性有一定的影響,因此,欄位限制檢索可以用來控制檢索結果的相關性,以提高檢索效果。在著名的搜索引擎中,目前能提供較豐富的限制檢索功能的有 AltaVista,Lycos和 Hotbot等。
在搜索引擎中,能提供位置檢索的得較少。如AltaVista,而且它能提供的位置運算目前也只有一種,即臨近位置運算(Near運算),不如常見資料庫檢索豐富。