計算機情報檢索
計算機情報檢索
計算機情報檢索是利用計算機從眾多的文獻資料中找出符合特定需要的文獻或情報的過程,目前已成為科技情報現代化的核心內容。
利用計算機從眾多的文獻資料中找出符合特定需要的文獻或情報的過程,目前已成為科技情報現代化的核心內容。
計算機情報檢索可以從不同的角度來分類。
按存貯情報內容的表現形式,可以分為:
①數據檢索:存貯的信息是數據,檢索時要搜索數據資料檔,並針對提問輸出答案。
②事實檢索:存貯的信息是各種事實,檢索時可以對被檢索的事實作某種邏輯推理,進行比較和分析,然後再輸出答案。
③文獻檢索:存貯的信息是文章標題、著錄項目和關鍵片語成的文獻單元,檢索時,按提問檢索詞查找文獻資料檔,輸出文獻題錄和文摘。
按存貯情報內容的時間,可以分為:
①現刊檢索:檢索時可提供當前現刊上的情報。
②追溯檢索:檢索時可追溯若干年前的情報。
按計算機檢索的方式,可以分為:
①離線檢索:檢索時利用計算機作批處理。
②聯機檢索:檢索時利用計算機的近程或遠程終端進行人機聯作。
計算機情報檢索工作開始於20世紀50年代初期。1954年,美國海軍軍械試驗站圖書館利用IBM-701電子計算機建立了世界上第一個計算機情報檢索系統。1959年,美國H.P.盧恩利用IBM-650 電子計算機進行計算機定題情報檢索服務。60年代,在圖書情報工作中廣泛利用計算機離線批處理系統進行情報檢索。1962年,美國M.M.凱塞爾利用IBM-7094電子計算機及其多道控制台進行了世界上最早的聯機情報檢索試驗。1964年,美國系統發展公司(SDC)研製成功 ORBIT(On-Line Retrieval ofBibliographic Information-Time shared)聯機情報檢索軟體。70 年代以來,聯機情報檢索有了進一步的發展,並向計算機網路過渡。聯機情報檢索系統除了上述的ORBIT之外,還有美國國家醫學圖書館的MEDLINE系統、美國洛克希德公司的DIALOG系統。與此同時,法國、英國、日本、加拿大也先後建立了聯機情報檢索系統,如歐洲空間組織情報檢索中心的ESA-IRS系統。
中國從 1963 年開始進行機械情報檢索的研究工作。1965年進行了機械情報檢索試驗。70年代以來開始研究計算機情報檢索。1975年進行了首次計算機情報檢索試驗。1977年進行了計算機聯機檢索試驗。1983年在中國科學技術情報研究所建立了連接美國、歐洲主要國家的資料庫聯機檢索系統,這個系統通過義大利的ITALCABLE分組交換中心連接到歐洲空間組織的ESA-IRS系統,並由數據交換網轉接到美國的DIALOG、 ORBIT系統,這樣,中國就可以在北京利用通信衛星檢索到歐美 200多個資料庫的幾千萬篇文獻。目前,不少單位在建立各種漢字文獻庫,有的單位在研究自動標引和自動作文摘的問題。
語言是信息最重要的載體,是科學技術情報的主要負荷者,文獻語言研究的深度對於情報檢索的效率有很大的影響。在辭彙方面,如果深入地分析文獻的主題內容,從文獻中抽取出足夠的檢索詞,文獻標引的範圍就比較大,檢索時就能把相關主題的文獻查出來,從而提高情報檢索的查全率。如果突出檢索詞的專指性,使其能準確地揭示文獻的主題內容,檢索時就不必再到其上位詞或其他專指性較低的詞中去查找,從而提高情報檢索的查准率。在句法語義方面,如果從語言學的角度揭示了檢索文章的主題中各個檢索詞的句法語義關係,就不易造成誤檢。
目前,計算機情報檢索一般採用邏輯式提問,這給用戶帶來許多不便,因為用戶不熟悉邏輯式這樣的不自然的提問方法。如果計算機能理解自然語言的含義,讓用戶直接採用自然語言提問,就可以大大地方便用戶,有利於計算機情報檢索的推廣和應用。而要用自然語言直接提問,就必須把自然語言的句法和語義加以形式化,使計算機能予以分析和理解。語言研究是情報檢索系統中一個不可缺少的方面。
計算機情報檢索