布爾模型
布爾模型
在該模型中,一個查詢詞就是一個布爾表達式,包括關鍵詞以及邏輯運算符。通過布爾表達式,可以表達用戶希望文檔所具有的特徵。由於集合的定義是非常直觀的,Boolean模型提供了一個信息檢索系統用戶容易掌握的框架。查詢串通常以語義精確的布爾表達式的方式輸入。
第二,雖然布爾表達式具有精確的語義,但常常很難將用戶的信息需求轉換為布爾表達式,實際上大多數檢索用戶發現在把他們所需的查詢信息轉換為布爾時並不是那麼容易。
除掉上述缺陷,Boolean模型仍然是文檔資料庫系統中的主要模型。
Boolean模型定義索引術語只有兩種狀態,出現或者不出現在某一篇文檔中,這樣就導致了索引術語的權重都表現為二元性(例如, )。查詢串q是一個傳統的布爾表達式,假設 是q的分離形式,假設 是 的任何一種分離形式,文檔與查詢串的相關都定義為:
如果,Boolean模型表示文檔 與查詢串相關(但可能不屬於查詢結果集),否則就表示與文檔 不相關。
Boolean模型的主要優點在於具有清楚和簡單的形式,而主要缺陷在於完全匹配會導致太多或者太少的結果文檔被返回。眾所周知,索引術語的權重從根本上提高了檢索系統的功能,從而導致了向量(Vector)模型的產生。