語義搜索

語義搜索

顧名思義,所謂語義搜索,是指搜索引擎的工作不再拘泥於用戶所輸入請求語句的字面本身,而是透過現象看本質,準確地捕捉到用戶所輸入語句後面的真正意圖,並以此來進行搜索,從而更準確地向用戶返回最符合其需求的搜索結果。

概述


舉例來說吧,當一個用戶在搜索框中輸入“孟字去掉子”時,深諳語義搜索的搜索引擎就能夠判斷出,用戶想要找的並不是含有“孟”、“去掉子”等字眼的內容,而是想要查找與“皿”這個字相關的內容;同樣,當用戶搜索“表現春天的圖片”時,搜索引擎會向其呈現出各種與春天相關的圖片,而不僅僅局限於該圖片的標題是否包含“春天”字樣。
知識庫是語義搜索引擎進行推理和知識積累的基礎和關鍵,而Ontology則是知識庫的基礎。一般來說,本體提供一組術語和概念來描述某個領域,知識庫則使用這些術語來表達該領域的事實。例如醫藥本體可能包含“白血病”、“皮膚病”等術語的定義,但它不會包含具體某一病人的診斷結果,而這正是知識庫所要表達的內容。比如張三患有皮膚病、李四患有皮膚病和白血病、王五患有白血病,其中的皮膚病、白血病就是本體。而各個病症的實例(張三、李四、王五)及其病症描述就是知識庫的內容。
本體和知識庫的關係有幾個要點:
★ Ontology為知識庫的建立提供一個基本的結構;
★ Ontology提供一套概念和術語來描述某一領域,並且獲取該領域的本質的概念結構;
★ 知識庫就運用這些術語去表達現實或者虛擬世界中的正確知識。
因此,建設一個知識庫的第一步就是對該領域進行有效的Ontology分析。通過本體支持語義,支持人機之間的交流,從而實現機器智能,為web的發展帶來了新的契機。而本體在搜索引擎中的應用,必將對搜索引擎的易用性和效率,產生極大的改進,從而使得web用戶能夠更好的在浩如煙海的信息海洋中遨遊。

應用領域


語義搜索的實質是自然語言處理技術,這正是百度自推出框計算概念以來一直重點投入的研發領域——早在去年,百度就曾與在該領域非常權威的哈爾濱工業大學建立聯合實驗室,著手自然語言相關技術的研發。

相關闡述


當兩個詞或一組詞大量出現在同一個文檔中時,這些詞之間就可以被認為是語義相關。
舉個例子,電腦和計算機這兩個詞在人們寫文章時經常混用,這兩個詞在大量的網頁中同時出現,搜索引擎就會認為這兩個詞是極為語義相關的。
要注意的是,潛在語義索引並不依賴於語言,所以SEO和搜索引擎優化雖然一個是英語,一個是中文,但這兩個詞大量出現在相同的網頁中,雖然搜索引擎還不能知道搜索引擎優化或SEO指的是什麼,但是卻可以從語義上把”SEO”,”搜索引擎優化”,”search engine optimization”,”SEM”等詞緊緊的連在一起。
再比如蘋果和橘子這兩個詞,也是大量出現在相同文檔中,不過緊密度低於同義詞。
搜索引擎有沒有使用潛在語義索引,至今沒有定論,因為搜索引擎既不承認也不否認。
這種語義分析技術可以給我們在搜索引擎優化上一些提示。
網站主題的形成
通常邏輯和結構適當的網站都會分成不同的頻道或欄目。在不同的頻道中談論有些區別但緊密相關的話題,這些話題共同形成網站的主題。搜索引擎在把整個網站的頁面收錄進去后,能夠根據這些主題詞之間的語義相關度判斷出網站的主題。
網頁內容寫作
從兩年前開始,搜索引擎排名有一個現象,搜索某個關鍵詞,排在靠前面的網頁有時甚至並不含有所搜索的關鍵詞,這很有可能是潛在語義索引在起作用。
比如搜索電腦,排在前面的網頁有可能出現一篇只提到計算機卻沒提到電腦。因為搜索引擎通過語義分析知道這兩個詞是緊密相關的。
還有一個要注意的是,在進行網頁寫作的時候,不要局限於目標關鍵詞,應該包含與主關鍵詞語義相關相近的辭彙,以支持主關鍵詞。
這在搜索結果中也有體現,有的文章雖然大量出現主關鍵詞,但缺少其他支撐辭彙,排名往往不好。