網路信息檢索工具

網路信息檢索工具

網路信息檢索工具是指在網際網路上提供信息檢索服務的計算機系統,其檢索的對象是存在於網際網路信息空間中各種類型的網路信息資源。

特點


1.信息檢索服務的開放性
在網際網路這個大型系統中包含信息資源、信息設備、信息通道、信息檢索軟體及信息終端等子系統,各個子系統都是開放的,而其信息資源面向所有用戶
2.超文本的多鏈接性
以超文本技術為基礎鏈結構將小同地方的相關信息有機聯繫起來,使用戶可以通過點擊文本或圖表中的超文本鏈接點訪問另一個相關的文檔,不僅能夠指向同一文檔中的不同段落,同一伺服器的不同目錄和文檔,還可以指向世界上任何地方任何伺服器及其任何目錄的文件。通過這些鏈接,信息檢索能夠以交互和跳躍式的方式進行,從而達到瀏覽檢索的目的。
3.操作的簡易性
網路信息檢索工具一般採用Client/Server結構,通過互動式的圖形界面,為用戶提供友好的信息查詢要求,系統就會自動向適當的伺服器提出請求,使網際網路檢索資源能夠廣泛地深入到學校、家庭、辦公室乃至每一個人。

工作原理


網路信息檢索工具的工作原理可以概括為:通過自動索引程序robot(或人工)來廣泛搜集網路信息資源數據,經過一系列的判斷、選擇、標引、加工、分類、組織等處理后形成供檢索用的資料庫,創建目錄索引,並大多以Web頁面的形式向用戶提供有關的資源導航、目錄索引及檢索界面。用戶可根據自己的信息查找要求,按照該檢索工具的句法要求等來通過檢索界面輸入想要查找的檢索項、提問式。系統檢索軟體接受用戶提交的檢索提問后,按照本系統的句法規定對用戶輸入的字元串運算符、標識符、空格等進行識別後,代理用戶在資料庫中檢索,並對檢索結果進行評估比較,按與檢索結果的相關程度排序后提供給用戶。

分類


網路信息檢索工具按其檢索方式與所對應的檢索資源大體分為以下幾種類型:
1.FTP(文件傳輸協議)類的檢索工具
這是一種實時的聯機檢索工具,用戶首先要登錄到對方的計算機,登錄后即可以進行文獻搜索及文獻傳輸有關的操作。使用FTP幾乎可以傳輸任何類型的正文文件、二進位文件、圖像文件、聲音文件、數據壓縮文件等。在這類檢索工具中,Archie是最常用的。Archie是自動標題檢索軟體,它藉助於FTP來訪問。用戶只需告訴其要檢索文件名的有關信息便可獲得文件所在的主機名、路徑。有了這些信息后,用戶可以利用FTP獲得自己想要的文件。與一般檢索工具不同的是,它不用主題來實現相應的檢索,而只能根據文件名和目錄名進行檢索。
2.基於菜單式的檢索工具
這類檢索工具是一種分散式信息查詢工具,它將用戶的請求自動轉換成FTP或Telnet命令,在一級一級的菜單引導下,用戶可以選取自己感興趣的信息資源。這對於不熟悉網路資源、網路地址和查詢命令的用戶是十分簡便的方法。在這類檢索工具中最常見的是Veronica和Jughead。如Veronica用於檢索可由Go—pher菜單訪問的信息資源,是與Gopher配套的檢索工具。它根據用戶給出的檢索詞進行檢索,可檢索文件名、目錄名、文檔及其他信息資源。
3.基於關鍵詞的檢索工具
WAIS(wide area information serve)信息服務軟體是基於關鍵詞的檢索工具。使用WAIS用戶不必操心檢索信息在網路中的哪台計算機上,也不用關心如何去獲取這些文件。WAIS檢索步驟如下:先從WAIS給出的資料庫中用游標選擇自己希望檢索的數據源名稱;在選定的數據源範圍內進行關鍵詞檢索,系統會自動進行遠程檢索;查詢完成後,WAIS在顯示檢索結果時,將結果與檢索詞按相關度權數大小排列,供用戶選擇;WAIS不僅可以顯示文件的出處,而且可以將文件中的信息顯示出來,供用戶聯機瀏覽。
4.基於超文本式的檢索工具
著名的www是一種基於超文本方式的信息查詢工具,通過將位於全世界網際網路上的各站點的相關資料庫信息有機地編織在一起,從而提供了一種界面友好的信息查詢介面,用戶只需要提出查詢要求,至於到什麼地方查詢以及如何查詢均由Www自動完成。www上的檢索工具按其搜索的資料庫類型可劃分為指南類和檢索類。指南類的資料庫包括了Web文檔標題索引樹、URL和描述信息的資料庫,而且包含部分文檔的關鍵詞、摘要,甚至全文信息,這類程序庫是由程序來創建和維護的,用戶可以依靠這些程序定期訪問LycoS、Web2Crawler、Alta、Vista、Excite、InfoSeek等。www上的檢索工具不僅可以搜索www上的信息,也可以搜索網際網路上的其他信息資源,如FTP、Gopher、新聞組等,www大有成為網際網路上標準檢索工具的趨勢。
多元搜索引擎是將多個搜索引擎集成在一起,並提供一個統一的檢索界面;且將一個檢索提問同時發送給多個搜索引擎,同時檢索多個資料庫,再經過聚合、去重之後輸出檢索結果。其優點是省時,缺點是由於不同搜索引擎的檢索機制、所支持的檢索演演算法、對提問式的解讀等均不相同,導致檢索結果的準確性差,且速度慢。