倒排文檔
倒排文檔
文徠檔的概念是指資料庫內容的組織形式。一般地說,一個資料庫至少包括一個順排文檔和一個倒排文檔。順排文檔是將資料庫的全部記錄按照記錄號的大小排列而成的文獻集合,它構成了資料庫的主體內容。在倒排文檔中,記錄的特徵標識作為排列依據,其後列出含有此標識的記錄號,使用倒排文檔可以大大提高檢索的效率。
輕量級爬蟲+全文檢索解決方案項目
(InformationRetrieval),是指將信息按一定的方式組織和存儲起來,並根據信息用戶的需要找出有關的信息過程,所以它的全稱又叫“信息的存儲與檢索(InformationStorageandRetrieval),這是廣義的信息檢索。狹義的信息檢索則僅指該過程的後半部分,即從信息集合中找出所需要的信息的過程,相當於人們通常所說的信息查尋(InformationSearch)。
計算機信息檢索,是指以計算機技術為手段,通過光碟和聯機等現代檢索方式進行信息檢索的方法。與手工檢索一樣,計算機信息檢索應作為未來科技人員的一項基本功,這一能力的訓練和培養對科技人員適應未來社會和跨世紀科研都極其重要,一個善於從電子信息系統中獲取信息的科研人員,必定比不具備這一能力的人有更多的成功機會,美國報道生活新方式的期刊POV也將交互網路檢索專家作為未來十大熱門職業之一,這些情況都說明了計算機信息檢索越來越重要,故值得大家對這一技術予以重視。
(primarydocument):是指作者以本人的研究成果為基本素材而創作或撰寫的文獻,不管創作時是否參考或引用了他人的著作,也不管該文獻以何種物質形式出現,均屬一次文獻。大部分期刊上發表的文章和在科技會議上發表的論文均屬一次文獻。
(secondarydocument):是指文獻工作者對一次文獻進行加工、提煉和壓縮之後所得到的產物,是為了便於管理和利用一次文獻而編輯、出版和累積起來的工具性文獻。檢索工具書和網上檢索引擎是典型的二次文獻。
(tertiarydocument):是指對有關的一次文獻和二次文獻進行廣泛深入的分析研究綜合概括而成的產物。如大百科全書、辭典等。
也有研究者在以上分類基礎上再加上零次文獻,它是指未經過任何加工的原始文獻,如實驗記錄、手稿、原始錄音、原始錄像、談話記錄等。零次文獻在原始文獻的保存、原始數據的核對、原始構思的核定(權利人)等方面有著重要的作用。
文獻信息檢索或情報檢索,是指將文獻信息按一定的方式組織和儲存起來,並能根據用戶的需要取出所需特定信息的整個過程。它的全名為信息存儲與檢索。通常所說的信息查詢或檢索只是名稱的后一半,或是"狹義"的信息檢索。文獻檢索分為數據檢索:以文獻中的數據為對象的一種檢索。如某公式、某化學分子式等。事實檢索:以文獻中的事實為對象,檢索某一事物發生的時間、地點或過程文獻檢索:以文獻為對象,查找某個課題的有關文獻的一種檢索。
用檢索標識與文獻的存儲標識相比,如果能夠取得一致,就叫"匹配",就可得到"命中文獻"。
文獻檢索語言是一種人工語言,用於各種檢索工具的編製和使用、並為檢索系統提供一種統一的、作為基準的、用於信息交流的一種符號化或語詞化的專用語言。因其使用的場合不同,檢索語言也有不同的叫法。例如在存儲文獻的過程中用來標引文獻,叫標引語言;用來索引文獻則叫索引語言;在檢索文獻過程中則為檢索語言。檢索語言按原理可分為3大類:
(1)、分類語言
它是將表達文獻信息內容和檢索課題的大量概念,按其所屬的學科性質進行分類和排列,成為基本反映通常科學知識分類體系的邏輯系統,並用號碼(分類號)來表示概念及其在系統中的位置,甚至還表示概念與概念之間關係的檢索語言。《中國圖書館圖書分類法》是我國圖書分類法的基礎,中圖法把一切知識門類按"五分法"分為馬列、毛澤東思想;哲學;社會科學;自然科學;綜合性圖書這五大部類。在此基礎上建成由22個大類組成的體系系列。
(2)、主題語言
是指經過控制的,表達文獻信息內容的語詞。主題詞需規範,主題詞表是主題詞語言的體現,詞表中的詞作為文獻內容的標識和查找文獻的依據
(3)、關鍵詞語言
指從文獻內容中抽出來的關鍵的詞,這些詞作為文獻內容的標識和查找目錄索引的依據關鍵詞不需要規範化,也不需要關鍵詞表作為標引和查找圖書資料的工具。(4)、自然語言:
指文獻中出現的任意詞。
(1)、著者途徑
許多檢索系統備有著者索引、機構(機構著者或著者所在機構)索引,專利文獻檢索系統有專利權人索引,利用這些索引從著者、編者、譯者、專利權人的姓名或機關團體名稱字順進行檢索的途徑統稱為著者途徑。
(2)、題名包括書名、刊名、篇名等途徑。
一些檢索系統中提供按題名字順檢索的途徑,如書名目錄和刊名目錄。
(3)、分類途徑
按學科分類體系來檢索文獻。這一途徑是以知識體系為中心分類排檢的,因此,比較能體現學科系統性,反映學科與事物的隸屬、派生與平行的關係,便於我們從學科所屬範圍來查找文獻資料,並且可以起到"觸類旁通"的作用。從分類途經檢索文獻資料,主要是利用分類目錄和分類索引。
(4)、主題途徑
通過反映文獻資料內容的主題詞來檢索文獻。由於主題法能集中反映一個主題的各方面文獻資料,因而便於讀者對某一問題、某一事物和對象作全面系統的專題性研究。我們通過主題目錄或索引,即可查到同一主題的各方面文獻資料。
(5)、引文途徑
文獻所附參考文獻或引用文獻,是文獻的外表特徵之一。利用這種引文而編製的索引系統,稱為引文索引系統,它提供從被引論文去檢索引用論文的一種途徑,稱為引文途徑。
(6)、序號途徑
有些文獻有特定的序號,如專利號、報告號、合同號、標準號、國際標準書號和刊號等。文獻序號對於識別一定的文獻,具有明確、簡短、唯一性特點。依此編成的各種序號索引可以提供按序號自身順序檢索文獻信息的途徑。
(7)、代碼途徑
利用事物的某種代碼編成的索引,如分子式索引、環系索引等,可以從特定代碼順序進行檢索。
(8)、專門項目途徑
從文獻信息所包含的或有關的名詞術語、地名、人名、機構名、商品名、生物屬名、年代等的特定順序進行檢索,可以解決某些特別的問題。
(1)、直接法
又稱常用法,是指直接利用檢索系統(工具)檢索文獻信息的方法。它又分為順查法、倒查法和抽查法。
(1)順查法
順查法是指按照時間的順序,由遠及近地利用檢索系統進行文獻信息檢索的方法。這種方法能收集到某一課題的系統文獻,它適用於較大課題的文獻檢索。例如,已知某課題的起始年代,需要了解其發展的全過程,就可以用順查法從最初的年代開始,逐漸向近期查找。
(2)倒查法
倒查法是由近及遠,從新到舊,逆著時間的順序利用檢索工具進行文獻檢索的方法。此法的重點是放在近期文獻上。使用這種方法可以最快地獲得最新資料。
(3)抽查法
抽查法是指針對項目的特點,選擇有關該項目的文獻信息最可能出現或最多出現的時間段,利用檢索工具進行重點檢索的方法。
(2)、追溯法
是指不利用一般的檢索系統,而是利用文獻後面所列的參考文獻,逐一追查原文(被引用文獻),然後再從這些原文後所列的參考文獻目錄逐一擴大文獻信息範圍,一環扣一環地追查下去的方法。它可以像滾雪球一樣,依據文獻間的引用關係,獲得更好的檢索結果。
(3)、循環法
又徠稱分段法或綜合法。它是分期分交替使用直接法和追溯法,以期取長補短,相互配合,獲得更好的檢索結果。
文獻檢索是一項實踐性很強的活動,它要求我們善於思考,並通過經常性的實踐,逐步掌握文獻檢索的規律,從而迅速、準確地獲得所需文獻。一般來說,文獻檢索可分為以下步驟:
(1)明確查找目的與要求。
(2)選擇檢索工具
(3)確定檢索途徑和方法
(4)根據文獻線索,查閱原始文獻
手工檢索工具
指印刷型檢索工具,主要有以下類型:
(1)、目錄、索引、文摘目錄,也稱書目。它是著錄一批相關圖書或其它類型的出版物,並按一定次序編排而成的一種檢索工具。索引,是記錄一批或一種圖書、報刊等所載的文章篇名、著者、主題、人名、地名、名詞術語等,並標明出處,按一定排檢方法組織起來的一種檢索工具。索引不同於目錄,它是對出版物(書、報、刊等)內的文獻單元、知識單元、內容事項等的揭示,並註明出處,方便進行細緻深入的檢索。文摘,是以提供文獻內容梗概為目的,不加評論和補充解釋,簡明、確切在記述文獻重要內容的短文。彙集大量文獻的文摘,並配上相應的文獻題錄,按一定的方法編排而成的檢索工具,稱為文摘型檢索工具,簡稱為文摘。
(2)、百科全書參考工具書之王。它是概述人類一切門類或某一門類知識的完備工具書,是知識的總匯。它是對人類已有知識進行彙集、濃縮並使其條理化的產物。百科全書一般按條目(詞條)字順編排,另附有相應的索引,可供迅速查檢。
(3)、年鑒按年度系統彙集一定範圍內的重大事件、新進展、新知識和新資料,供讀者查閱的工具書。它按年度連續出版,所收內容一般以當年為限。它可用來查閱特定領域在當年發生的事件、進展、成果、活動、會議、人物、機構、統計資料、重要文件或文獻等方面的信息。
(4)、手冊名錄手冊,是彙集經常需要查考的文獻、資料、信息及有關專業知識的工具書。名錄,是提供有關專名(人名、地名、機構名等)的簡明信息的工具書。
(5)、詞典(字典)詞典是最常用的一類工具書。分為語言性詞典(字典)和知識性詞典。
(6)、表譜、圖錄表譜,採用圖表、譜系形式編寫的工具書,大多按時間順序編排。主要用於查檢時間、歷史事件、人物信息等。圖錄,包括地圖和圖錄兩類。
(7)、類書、政書
1.數據檢索:以文獻中的數據為對象的一種檢索。如查找某種材料的電阻,某種金屬的熔點;
2.事實檢索:以文獻中的事實為對象,檢索某一事件發生的時間,地點,或過程;如查找魯迅生於某年?
3.文獻檢索:以文獻原文為檢索對象的一種檢索。
文獻檢索的手段:
1.手工檢索。
2.計算機檢索。
1中國期刊網專題全文資料庫包括有幾個專輯?中國期刊網專題全文資料庫共包括理工A、理工B、理工C、農業、醫藥衛生、文史哲、經濟政治與法律、教育與社會科學、電子技術與信息科學等九個專輯。
2 中國期刊網專題全文資料庫共有幾個檢索欄位?中國期刊網的檢索方法包括13個檢索欄位,它們是篇名欄位、作者欄位、關鍵詞欄位、主題詞欄位、機構欄位、中文刊名欄位、中文摘要欄位、引文欄位、基金欄位、全文欄位、年份欄位、期數欄位和ISSN欄位。
3 中國期刊網專題全文資料庫共有幾個基本檢索欄位?在13個檢索欄位中,篇名、文摘、關鍵詞、主題詞和全文欄位屬於基本欄位,可用於從主題角度查找相關文獻。
4 中國期刊網專題全文資料庫共有幾種檢索方法?共有三種檢索方法。它們是: 1)分類導航。利用系統提供的專輯欄目及其展開的分類導航樹查找相關文獻,適用於對一個學科的文獻做全面調查的場合。 2)初級檢索。是利用檢索項對某個指定欄位進行的檢索。 3)高級檢索。是指設置多個檢索條件和邏輯組合關係,查找同時滿足這些條件和邏輯關係的文獻。
5 什麼是中國期刊網專題全文資料庫的二次檢索?它是否只能檢索二次?二次檢索是在前次檢索結果的範圍內再次進行查找,以達到縮小檢索範圍,使檢索結果逐步接近課題要求的目的。其作用相當於在前後兩次檢索之間做邏輯與(AND)運算。不管是初級還是高級檢索界面,只要檢索結果的篇數允許,二次檢索可以反覆做,直到滿足課題要求為止。
6 中國期刊網專題全文資料庫的初級檢索和高級檢索的區別在那裡?區別在二個方面: 1)檢索的欄位數量不同。初級檢索的欄位數量只有一個,因此,它每次只能檢索對一個檢索欄位的檢索詞進行檢索。高級檢索的欄位有兩個,它可以同時對兩個不同的檢索欄位的檢索詞進行檢索。 2)檢索的布爾邏輯算符不同。初級檢索的欄位數量只有一個,即利用二次檢索對前一次檢索結果的"與"檢索。在高級檢索中除了可以利用的欄位有兩個,利用二次檢索對前一次檢索結果的"與"檢索之外,它可以同時對兩個不同的檢索欄位的檢索詞進行"或"和檢索。
7中國期刊網專題全文資料庫的全文瀏覽器有什麼作用?中國期刊網的CAJ全文瀏覽器的作用是為了瀏覽這個資料庫的全文使用的。支持中國期刊網全文資料庫中全文CAJ文件的瀏覽器(需要WINZIP解壓),它可以在該資料庫首頁上下載。如果事先在計算機上沒有安裝這個瀏覽器,將無法閱讀該資料庫的全文。
1.從信息利用的角度考察,網際網路信息資源由哪三方面構成?答:從信息利用的角度考察,網際網路信息資源由連接在網上的計算機中的無數信息、網上的各種信息工具以及網路通信渠道三方面構成。
2.簡述網路信息資源的特點。答:網路信息資源的特點是數量龐大、增長迅速;更新頻繁、變化無常、分佈散亂;良莠混雜。
3.如何正確認識網路信息與印刷性出版物在出版類型上的對應關係?按照出版類型區分,網路信息資源有著和印刷型出版物類似的對應關係。例如,印刷型的期刊有網路期刊與其相對應,印刷型的圖書有網路圖書與其相對應,印刷型的報告有網路報告與其相對應,如此等等。這種對應關係,僅限於我們對網路文獻信息類型的認識,不能應用於具體的文獻。例如,早期的印刷型文獻一般不會有網路形式,多數的當前印刷型學術文獻也不太可能找到對應的網上電子版本。
4.何謂原創性網路信息和二次網路信息?按照內容是否具有原創性,網路信息資源有一次資源和二次資源的區分。一次資源是指首次發表的原創性信息,二次資源是轉載已有的信息。
5.何謂可見網路信息和不可見網路信息?按照是否屬於搜索引擎檢索範圍,網路信息資源可分為可見資源和不可見資源兩類。
6.簡述網路可見信息的兩個條件。可見資源是搜索引擎可搜索到的資源。這種資源要滿足兩個條件:一是必須含有HTML超鏈接,二是沒有設置口令,
7.簡述網站和網頁的關係。網頁是用HTML或DHTML、XML等語言寫成的文本文件。而網站則是有獨立的域名,由若干相關網頁組成的一個站點。按照微軟公司的比喻,如果把WWW當作是Internet上的大型圖書館,則每個Web站點就是一本書,每個Web頁面就是書的一頁。
8.為什麼說網路學術信息不能唾手可得?原因主要有三:一是查找主頁信息通常要通過查找搜索引擎之類的中介資料庫才能進行。而使用這些工具需要一些專門的技術,希望高效率地查找網路信息時尤其如此。二是一般情況下只使用一兩種搜索引擎所得的結果往往是滄海一粟。三是網際網路上學術類與非學術類信息的比例是1﹕10。再則,網上學術信息很多是以不可見資源形式存在著。因此查找網上信息的難度更大一些。9.按工作方式區分的搜索引擎有哪三類搜索引擎?按照工作方式的不同,搜索引擎可以分為主題引擎、目錄引擎和多元引擎。
10.簡述主題引擎的三個組成部分。主題引擎由三個主要部分構成:Robot、Index和搜索軟體。
11.請舉出典型的國外和國內主題引擎各一個。國外主題引擎的代表是Google,國內代表為百度。
12.為什麼主題引擎的分類途徑不如目錄指南型引擎?主題搜索引擎提供的分類途徑或者為自動分類的結果,或是借用其他目錄引擎的分類數據(例如Google利用網景公司的OpenDirectory分類),因而分類檢索效果不如由人工仔細分類的目錄指南型搜索引擎。
13.簡述主題引擎與目錄指南型引擎的主要區別。(1)信息處理深度,目錄指南型引擎為網站,主題型引擎為網頁;(2)信息處理方式,目錄指南型引擎為有人工參與,主題型引擎為全自動化;(3)信息的質量和數量,目錄指南型引擎質量上相對較高,主題型引擎數量上相對較多。
14.為什麼目錄指南型引擎的主題查找效果不如主題型引擎?目錄指南型引擎的主題檢索只在對站點人工描述語言中進行,查找範圍有限,所得結果通常是分類類名和網站名稱,結果數量遠不如主題引擎。
15.舉出國內外目錄指南型引擎典型代表各一個。目錄引擎的國外代表是Yahoo!,國內代表有新浪網。
16.什麼是多元搜索引擎?簡述其工作原理。多元引擎是一種起檢索中介作用的搜索引擎。多元引擎本身沒有存放網頁信息的資料庫。當用戶查詢一個關鍵詞時,它把查詢請求轉換成其他數個搜索引擎能夠接受的命令格式,并行地或者有選擇性地訪問這些搜索引擎並查詢這個關鍵詞,處理這些搜索引擎返回的結果,然後再返回給用戶。
17.舉出國內外多元引擎典型代表各一個。國外多元搜索引擎的代表是Dogpile,國內的代表是萬緯等。
18.簡述中外問搜索引擎的主要區別。中文引擎可以使用英語等外文查找信息,外文引擎也可以使用中文;因而這兩種引擎的區別不在於使用的語言,而在於收集和處理信息的側重點。中文引擎主要收集和處理的信息是中文網頁,查找中文資料的效果通常勝過外文引擎。反之,如果需要查找英文信息,直接使用境外英文引擎效果更好。
19.百度引擎的網頁快照可以起什麼作用?百度伺服器通過程序收集網頁時,在緩存器中保留了網頁備份。“網頁快照”即是網頁備份的鏈接。當點擊檢索結果標題沒有結果時,“網頁快照”可以用於幫助獲取某些“消失”了的網頁信息。
20.分別給出百度引擎限制於URL欄位、標題欄位和網站欄位的檢索命令。他們分別是inurl,intitle和site.
21.簡述百度引擎的三種邏輯運算符。邏輯與為空格,邏輯或為“|”,邏輯非為“-”.
22.什麼是虛擬圖書館?虛擬圖書館是一種網路信息利用工具。它針對某一學科或領域的研究者的需要,將網際網路上與之有關的各種資源線索,包括與該學科或領域有關的研究機構、實驗室、電子書籍、學術期刊、會議論壇、專家學者等的URL,進行系統地收集、核實並加以組織,以網站、網頁或資料庫形式提供給用戶瀏覽或者檢索。
23.簡述使用虛擬圖書館的場合。使用虛擬圖書館查找信息的場合為:當時間短促,不允許瀏覽由搜索引擎查得的巨量的信息時;當希望看到比較可靠的網路信息;當希望對某個領域有個整體的、較全面的了解時。
23.能否以網上信息資源完全代替印刷型文獻。哪一些文獻的全文更適合從網上獲得?網上信息資源不能完全代替印刷型文獻,尤其是學術型文獻。國內學術期刊文獻、部分國外學術期刊文獻和部分專利文獻,比較適合於通過網路獲取。
24.通過搜索引擎獲得的未經審查的各種非正式出版物稱為什麼文獻?通過搜索引擎獲得的未經審查的各種非正式出版物稱為灰色文獻。
1請比較手工檢索和計算機檢索的優缺點和適用範圍。計算機信息檢索的優點在於速度快,耗時少,查閱範圍廣,甚至可以查到國外剛剛出版的期刊論文的信息。計算機信息檢索的優點還在於檢索內容的專指性強,可以從文獻型資料庫中以文獻的發表年份、文獻中提及的人名等查找相關文獻。計算機信息檢索的缺點是追溯時間受到一定限制,檢索費用比較昂貴,檢索的時間也有一定的限制。計算機信息檢索主要適用於已經數字化的近期文獻信息和動態性信息的查找。手工檢索的優缺點差不多正好與計算機信息檢索的相反。手工檢索的優點是時間檢索和檢索範圍都不受限制。但是手工檢索耗時多,效率低,檢索入口少,因此查找效果往往不如計算機信息檢索的好。手工檢索主要適用於紙質印刷書刊文獻,特別是早期文獻信息的查找。
2什麼是資料庫,它的結構由哪幾部分組成?按照國際標準組織標準ISO/DIS5127規定,資料庫是指至少由一種文檔(file)組成,能滿足特定目的或特定功能數據處理系統需要的數據集合。從使用者觀點觀察,資料庫主要由“文檔——記錄——欄位”三個層次構成。
3什麼是文檔?資料庫包含哪幾種類型的文檔?從資料庫的內部結構來看,文檔的概念是指資料庫內容的組織形式。一般地說,一個資料庫至少包括一個順排文檔和一個倒排文檔。順排文檔是將資料庫的全部記錄按照記錄號的大小排列而成的文獻集合,它構成了資料庫的主體內容。在倒排文檔中,記錄的特徵標識作為排列依據,其後列出含有此標識的記錄號,使用倒排文檔可以大大提高檢索的效率。
4什麼是記錄?記錄是文檔的基本單元。它是對某一實體的全部屬性進行描述的結果。
5欄位有幾種類型?欄位是記錄的基本單元。它是對實體的具體屬性進行描述的結果。
6如何區別基本欄位和輔助欄位?基本欄位和輔助欄位的區別是是否與文獻內容相關。基本欄位與文獻內容相關,輔助欄位與與文獻內容無關或者關係不大。
7如何使用基於同一概念的方法擴展檢索概念?基於同一概念的檢索詞的擴展法,可以尋找同一事物的學名和俗名等,尋找同一事物的簡稱、全稱、音譯意譯以及反義詞。如果是英語,可以尋找同一事物名詞的單複數、不同詞性、英美語的不同形式等。
8以基於內容分析方法擴展檢索概念具體有哪幾種方法?基於內容分析的概念擴展法分為上位概念擴展法、下位概念擴展法和隱含概念擴展法。上位概念擴展法是分析檢索對象的學科歸屬。下位概念擴展法是分析檢索對象的學科分支。隱含概念擴展法是指文獻或課題中,未用顯而易見的方式表達,因而需要認真進行由表及裡、由此及彼的深入分析才能找出的主題。
9如何使用基於檢索結果方法擴展概念?對初步檢索結果進行分析,往往能夠得到與課題相關的新的檢索概念,將這些概念經過重新組合,就可以達到擴展檢索結果的目的。
10什麼場合可以使用截詞方法?當某些英語檢索詞詞幹相同、詞義相近,但詞尾或詞中間有變化時(多數英語單詞的單複數變化和英美不同拼寫形式),可以採用截詞符,或稱通配符擴展檢索詞。截詞檢索可以擴大檢索結果。
12使用截詞檢索應注意的哪些問題?使用截詞方法時需注意四個問題:一是截詞符要緊接在詞幹後面,截詞符和詞幹之間不能有空格。二是避免將檢索詞的詞幹截得過短,一般應在三個字母以上。三是截詞應該合理使用。一般不可能出現詞尾變化的單詞其後不必再使用截詞。四是從希望出現的單詞中取儘可能多的公共字母作為詞幹,以提高查准率。
13什麼是布爾邏輯算符?布爾邏輯算符一般有哪幾種?規定檢索詞之間的邏輯關係的算符,稱為布爾邏輯算符。布爾邏輯算符包括邏輯或(OR)、邏輯與(AND)和邏輯非(NOT)。
14簡述布爾算符(OR)的作用。布爾算符或(OR),是用來組配具有並列關係、概念相同或相近的詞。OR算符的基本作用是擴大檢索範圍,增加命中文獻量,提高檢索結果的查全率,OR運算符還有一個去重的功能。在實際檢索中,同一概念組面中含義相同或者相近的詞,相互之間都使用OR運算符。
15簡述布爾算符(AND)的含義和作用。與(AND)運算符用來組配具有相互交叉限定關係的檢索概念。其含義是檢出的記錄必須同時含有前後兩個檢索詞。AND算符的基本作用是縮小檢索範圍,減少命中文獻量,提高檢索結果的查准率。
16簡述布爾算符(NOT)的作用。非(NOT)運算符是排除含有某些詞的記錄的,即檢出的記錄中只能含有NOT算符前的檢索詞,但不能同時含有其後的詞。NOT算符的基本作用是縮小檢索範圍,提高檢索結果的查准率。17優先算符“()”有什麼作用?優先算符“()”的作用是在多個邏輯符號混合使用時,改變它們的運算順序。
18什麼是位置算符?它在文獻檢索中起什麼作用?位置算符又稱鄰接算符,適用於兩個檢索詞以指定間隔距離或者指定的順序出現的場合。位置算符是提高檢索查准率的一種重要手段。
19欄位限制有什麼作用?適用於什麼場合?欄位限制是調整檢索策略的一種重要的手段。多數檢索系統對不指定欄位的檢索詞,通常在基本欄位中進行搜索,如果想指定在題目等欄位中查找所希望的檢索詞,就需要使用欄位限制。欄位限制適用於在已有一定數量輸出記錄的基礎上,通過指定欄位的方法,減少輸出篇數,提高檢索結果的查准率的場合。
20需要擴大檢索範圍時,如何調整檢索策略?需要擴大檢索範圍,調整策略的方法有:①減少“與(AND)”算符,增加同義詞或同族相關詞用邏輯或(OR)將它們連接起來;②在詞幹相同的單詞后使用截詞符“?”;③去除已有的欄位限制、位置算符限制(或者改用限制程度較小的位置算符)。
21需要縮小檢索範圍時,如何調整檢索策略?縮小檢索範圍,調整策略的方法有:①減少同義詞或同族相關詞;②增加限制概念,用邏輯與(AND)將它們連接起來;③使用欄位限制,或者限制檢索詞在指定的基本欄位出現,或者指定輔助欄位,限制結果的文獻類型、語種、出版國家;④使用適當的位置算符;⑤使用邏輯非(NOT)算符,排除無關概念。
1信息檢索原理是什麼?信息檢索的原理可以表述為將檢索提問標識與存貯在檢索工具中的標引標識進行比較,含有兩者一致或信息標引的標識包含著檢索提問標識的信息就是檢索命中的信息。
2什麼是文獻的內容特徵和外表特徵?這兩者有何區別?與文獻信息主題內容沒有關係或關係不大的信息稱為文獻信息的外表特徵,例如,著者、著者單位、期刊名稱、專利說明書的專利號、政府報告的報告號等。與文獻信息主題內容密切相關的信息稱為文獻信息的內容特徵。文獻信息內容特徵主要有各種形式的主題詞和分類號。文獻的標題因常常能夠反映文獻的主題,常被歸入內容特徵的範疇。內容特徵和外表特徵的區別是:與文獻信息內容特徵的關係密切的是內容特徵,反之是外表特徵。
3什麼是檢索語言?它在信息檢索中起到什麼作用?檢索語言是用來描述文獻的內容特徵、外表特徵和表達情報提問的一種人工語言。它是溝通信息處理人員和檢索人員的橋樑。
4檢索語言的種類有幾種?檢索語言主要有以代碼語言為特徵的分類語言和以事物名稱術語為特徵的主題語言兩大類。
5什麼是分類語言?分類語言是在一定的哲學思想指導下,根據科學學科之間的邏輯歸屬關係,採用層次型或樹杈型結構,列舉人類所有的知識類別,並對每一知識分別標以相對固定的碼,從而形成的類表。
6國內通用的分類法有哪兩種?它們的類號設置有什麼主要區別?國內通用兩種分類法是《中國圖書館分類法》和《中國科學院圖書分類法》。它們的類號設置的區別是《中國圖書館分類法》混合使用字母和數字,而《中國科學院圖書分類法》使用純數字作為類號。
7什麼是分類法中的上位類、下位類和同位類?在《中圖法》以及任何類似的分類表中,被區分的類稱為上位類。相對地說,區分出來的類就是下位類。處於同一上位類下的同一層次的下位類稱為同位類。
8如何通過分類途徑,使用檢索刊物檢索課題相關信息?利用分類途徑檢索文獻,其檢索步驟一般為:分析待查課題的主題內容,根據主題內容在類目索引中找到相應的類目,在分類表中提取分類號。在相應的檢索工具中用該類號檢索所需的文獻,再根據所需要的文摘提供的出處查找原文。
9多概念主題的文獻如何確定分類號?給多概念課題確定分類號的方法,首先需要應用單概念課題分類方法,其次要區分屬於並列概念課題還是應用性課題。如果是並列概念課題,凡是有主次者,應取其重點或主要研究對象歸類;凡是無主次的,課題所涉及的類別都應該查找。如果屬於應用性課題,應用於一個領域的應在所應用或受影響的類目中查找。應用於多個領域的則在該理論、方法、工藝等本身所屬的類目中查找。
10什麼是關鍵詞語言?簡述它的特徵和適用場合?關鍵詞是一種自然語言性質的主題語言。關鍵詞法因直接以作者在文獻中的用詞作檢索詞,基本上不對詞語加以控制。它適合於檢索新近出現的信息。
11.什麼是敘詞語言?簡述它的特徵和適用場合。敘詞語言是以規範化科學名詞為基礎的一種主題法檢索語言。敘詞語言的兩個最主要的特徵是名詞術語經過規範化,敘詞與敘詞可以組配。敘詞語言適用於需要比較全面地查找以往的文獻信息。
12簡述二次文獻的類型。二次文獻分為目錄、題錄、文摘三種。目錄是一批相關文獻信息的著錄集合,它以報道文獻出版或收藏信息為主要功能的工具。題錄是將圖書、報刊等文獻中論文的篇目按照一定的排檢方法編排而成的,供人們查找篇目出處的工具。文摘是以精練的語言把文獻信息的重要內容、學術觀點、數據及結構準確地摘錄下來,並按一定的著錄規則與排列方式編排起來,供讀者查閱使用的一種檢索工具。
13文獻檢索有哪幾個步驟?共有六個檢索步驟:明確課題要求、了解課題的知識背景、分析課題涉及的概念、選擇使用的檢索刊物、實施檢索以及索取原文。
14手工文獻檢索主要有哪兩種方法?文獻檢索的常用方法有直接檢索法和間接檢索法兩種:直接檢索法即直接從報刊雜誌中通過瀏覽的方法從中獲取所需信息的一種方法。間接檢索法即通過檢索工具的指引進行查找,獲取所需信息的一種方法。
15什麼是追溯法?它有什麼優缺點?追溯法又稱回溯法,它是從已有的文獻後面所附的參考文獻入手,逐一追查原文的方法。其優點是:在沒有檢索工具或檢查工具不齊全的情況下,藉助此種方法,也可以查得一批有關文獻信息。其缺點是:原文作者引用的參考文獻是有限的,不可能列出全部有關文獻,而且有的引用文獻又與原文關係並不密切,參考價值不大。因此用此法查找文獻比較費時,漏檢和誤檢的可能性較大。16.什麼是常用法?常用法是利用目錄、題錄、文摘或資料庫等各種檢索工具來查找文獻的方法。
17.什麼是綜合法?綜合法因綜合使用追溯法和常用法兩種方法而得名。具體方法是:先利用檢索工具查出一定時期內的一批有用文獻。然後利用這些文獻後面所列的參考文獻,再以追溯法查出前一時期內的文獻,如此循環交替地使用上述兩種兩種查找方法,直到滿足要求為止。
1簡述學習文獻檢索課的意義答:(1)文獻信息檢索是獲取知識的捷徑。掌握文獻信息檢索方法與技能,可以幫助人們快、准、全地獲取所需知識,最大限度地節省查找時間,使文獻信息得以充分的利用。 (2)文獻信息檢索是科學研究的嚮導。要進行有價值的科學研究,必須依賴文獻檢索,全面獲取相關文獻信息,及時了解各學科領域出現的新問題、新觀點、以確定自己的研究起點和研究目標。 (3)文獻信息檢索是終身教育的基礎。科技的迅速發展使知識的總量呈指數增長,而知識的陳舊速度也明顯加快,這就要求人們具有終身教育的能力,這種能力在很大程度上就是獲取新知識的能力,就是對新知識的敏感力和接受力,因而必須掌握文獻信息檢索的方法。終身學習的需要,是知識創新的需要.2當代文獻具有的特點哪些?答:(1)數量多、增長快,(2)出版形式多、文種多,(3)文獻異常分散,(4)文獻失效加快,(5)報道內容重複交叉,(6)文獻總體質量下降
3什麼是零次文獻、一次文獻、二次文獻和三次文獻,它們之間的關係如何?答:(1)零次文獻非文獻形式社科文獻源通常指沒有物質載體的文獻源,未經記錄或公開於社會的最原始的文獻。 (2)一次文獻也稱原始文獻,一次文獻它是以作者本人的研究或研製成果為依據而創作的原始文獻。 (3)二次文獻又稱檢索工具。它是對一次文獻進行加工提煉、壓縮,按一定的系統和方式組織起來而產生的一類文獻。 (4)三次文獻是利用二次文獻所提供的線索,選用一次文獻的內容加以分析綜合而編寫出來的文獻。一般來說,零次文獻是一次文獻的基礎和素材,一次文獻是經常使用的最基本的文獻,是檢索的對象,二次文獻是對一次文獻的簡化和整理,是檢索的主要手段和工具。三次文獻是對零次文獻和一次文獻的高度濃縮,是情報研究的成果。
4什麼是核心文獻、相關文獻和邊緣文獻?答:核心文獻通常是指與本學科發展水平、發展動向密切相關的一些文獻。如核心期刊等。相關文獻和邊緣文獻是指內容與學科的關係相對疏遠一些的文獻。相關文獻和邊緣文獻是本學科和其它學科相互滲透、互相結合的結果。
5什麼是文獻?構成文獻的有哪四個要素?答:文獻的定義是記錄有知識的一切載體稱為文獻。構成文獻的四要素是:知識內容,信息符號,載體材料,記錄方式。
6電子文獻的主要類型和文件格式是什麼?答:(1)按照載體的形態,電子文獻可以有軟磁碟(FD)、只讀光碟(CD-ROM)、可擦寫光碟(CD-RW)等之分;(2)按照文獻的電子格式,電子文獻有文本格式的txt文件、doc文件、pdf文件,圖像格式的gif文件、jpg文件以及標記文件格式的html文件和xml文件之分;(3)按照出版周期和內容特點,電子文獻可以有電子期刊,電子圖書,電子報紙以及資料庫等之分;(4)按照內容的性質和時效性,電子文獻可以有論文文獻和動態消息之分;(5)按照版權狀況,電子文獻又可分為有版權電子文獻和無版權電子文獻兩類;(6)從文獻信息利用的角度來看,可分為有版權的電子期刊、電子圖書、報告的學術價值相對較高,而單篇論文和動態性的電子文獻有時雖然沒有註明版權,也有相當的參考價值。
7文獻信息的交流方式有哪兩種?答:直接交流是以個人接觸為基礎的信息交流方式,又稱“非正式交流”。其主要方式有交流式、集會式、觀摩式和零次文獻交換式。間接交流是以社會文獻信息機構為媒介的信息交流方式,又稱“正式交流”,包括文獻的編輯、出版、印刷、發行、收藏與提供以及分析研究與開發利用。
8如何理解不同類型印刷型文獻信息的出版時間順序?答:各種印刷型文獻在出版時間上是有先後的。除了學位論文以外,會議、報告和專利速度最快。期刊次之,而且品種多,容量大,出版速度也很快,從而成為多數論文的發表渠道。目錄、題錄和文摘這些二次文獻略後於專利、報告、會議和期刊,而綜述、圖書和百科全書這些三次文獻所需時間最長。
9如何針對不同時間要求的文獻信息,選用不同的文獻信息源?答:以信息利用者的觀點,針對不同時間要求的文獻信息應該使用不同的文獻信息類型。例如,查找當前最新的信息(一、兩個月之內的信息),應該通過網際網路以及當前最新的報紙雜誌、廣播電視這些媒體;兩個月之前到十年之內的信息應主要通過網上圖書期刊類的資料庫解決;5~20年前的信息應除了期刊之外,還可以通過印刷版的圖書和手冊性工具書來查找。
10如何理解布拉德福文獻分散定律?這個定律對我們有什麼啟示?答:布拉德福文獻分散定律是定量地表述任一學科的核心文獻、相關文獻和邊緣文獻三者之間關係的一個定律。布拉德福文獻分散定律的公式為1∶a∶a2,其中,1代表核心文獻區,a代表相關文獻區,a2代表邊緣文獻。布拉德福文獻分散定律給我們的啟示是經常閱讀核心期刊是一種有效的信息獲取方法。
11什麼是ISSN和ISBN?答:ISSN是國際標準連續出版物號(InternationalStandardSerialNumber,簡稱ISSN)。ISBN是國際標準書號(InternationalStandardBookNumber,簡稱ISBN)。
11文獻的載體類型有幾種?印刷型文獻和電子文獻的關係如何?答:文獻已載體不同可以分為:印刷型、縮微型、聲像型和電子型文獻四種類型。印刷型文獻是當前和今後相當長的時間內的文獻主體,而電子文獻是今後文獻的發展方向。一般而言,上世紀90年代之後的一些文獻可以在網路上獲得原文,但是絕大多數的文獻還是要通過印刷型文獻獲取。
1.按照交流渠道的不同,文獻信息收集的方法可以有哪兩種?按照交流渠道的不同,人文社科文獻信息收集的方法可以分為正式渠道和非正式渠道兩種。
2.什麼是通過非正式渠道收集信息的方法?通過非正式渠道(即從以非記錄形式存在的信息源中)收集信息。就是通過同行個人間的信函或談話交流、參加各類學術會議、參觀展覽會、實地考察訪問某單位、開展調查研究等方式有針對性地獲取與課題相關的口頭信息、實物信息和調研數據。
3.什麼是正式渠道收集信息的方法?通過正式渠道收集信息的方法利用文獻信息檢索的方法,
4.簡述通過正式渠道收集文獻信息的一般方法。通過正式渠道收集文獻信息的一般方法是:首先通過三次文獻,即百科全書、年鑒、有關的數據手冊、設計手冊、學術機構指南、名人錄等來收集相關的信息。其次根據擬定的查詢線索和主題,通過手工檢索工具或者計算機檢索系統查找相關的文獻信息。如果使用的是全文文獻信息資料庫,收集的步驟可以到此結束,如果使用的是書目信息類型的檢索工具,則需要再次直接查找各種類型的原始文獻,諸如專業核心期刊、學位論文、會議文獻和報紙等文獻收集信息。
5.簡述根據已知書目信息獲取原文的三個步驟。已知書目信息獲取原文的步驟有三:一是根據書目信息中的特徵詞,判斷出文獻的類型;二是從已知的書目信息中選擇查找館藏的檢索入口,例如責任者、書名、主題詞等,使用公共書目查詢系統(OPAC,WEBPAC,iPAC),以便確定查詢文獻的館藏;三是辦手續借閱。
6.就圖書而言,含有析出文獻的書目信息的特點是什麼?就圖書而言,含有析出文獻的書目信息的特點有二:(1)常常有兩處著錄作者信息,一處是析出文獻的作者,通常是論文或者是章節的作者,另一處是整書的作者,通常是編者。(2)常常有兩處著錄題名信息,一處是析出文獻的篇名或者章節名,另一處是整書的題名,通常是書名或者期刊名。
6.能否使用我校圖書館HORISON系統iPAC同時查找圖書和期刊館藏情況?可以。HORISON系統iPAC中的書目信息中既含有圖書又含有期刊信息。
7.能否使用漢語查出HORISON系統iPAC中的英語書目信息?可以。HORISON系統iPAC能夠自動將漢語提問轉換成英語,並給出相關的檢索結果。
8.簡述引用參考文獻的作用。1)著錄參考文獻可以反映論文作者的科學態度和論文具有真實、廣泛的科學依據,也反映出該論文的起點和深度。2)著錄參考文獻能方便地把論文作者的成果與前人的成果區別開來。3)著錄參考文獻能起索引作用。4)著錄參考文獻有利於節省論文篇幅。
9.正文部分引用文獻的標註方法有哪兩種方法?正文部分引用文獻的兩種標註方法,一種是順序編碼制,另一種是著者—出版年編碼制。
10.簡述文後參考文獻的原則。正確著錄文後參考文獻的原則是:引用合理、格式規範、數據正確。
11.簡述參考文獻主要責任者的著錄方法。著錄參考文獻的主要責任者時,著作方式相同的責任者不超過三人時,全部照錄,超過三人時,只著錄前三個責任者,其後加“等”或“etal.”。兩個主要責任者之間用“,”隔開。個人著者採用姓在前,名在後的著錄形式。著者的名可以用縮寫字母,縮寫名后不加“.”,歐美著者的中譯名可以只著錄姓。
12.請說明圖書在文後參考文獻中的著錄格式。圖書在文後參考文獻中的著錄格式為:序號主要責任者。書名[文獻類型標識](供選擇).版本(第一版不做著錄).出版地:出版者,出版年。頁碼
13.請說明圖書析出文獻在文後參考文獻中的著錄格式。圖書中析出的文獻在文後參考文獻中的著錄格式為:序號析出責任者。析出題名[文獻類型標識](供選擇).見:原文獻責任者。原文獻題名[文獻類型標識](供選擇).版本。出版地:出版者,出版年。頁碼
14.請說明期刊在文後參考文獻中的著錄格式。期刊在文後參考文獻中的著錄格式為:序號析出責任者。析出題名[文獻類型標識](供選擇).刊名,出版年,卷號(期號):頁碼。
15.請說明報紙在文後參考文獻中的著錄格式。報紙在文後參考文獻中的著錄格式為:序號析出責任者。析出題名[文獻類型標識](供選擇).報紙名稱,年-月-日(版次)
1.EiVillage2提供哪幾種資料庫?
EiVillage2提供美國工程索引CompendexWeb,英國《科學文摘》(簡稱INSPEC)和美國國家技術情報服務中心資料庫(簡稱NTIS)三種資料庫。
2.簡述簡易檢索(EasySearch)界面的用途、默認的檢索資料庫和使用方法。
簡易檢索界面適於查找比較簡單課題,檢索範圍默認為CompendexWeb以及INSPEC,NTIS三個資料庫。使用簡易檢索界面時,輸入檢索文本框的檢索詞可以是單詞,或者帶截詞、欄位、邏輯、片語和位置等算符的檢索策略。簡易檢索界面不允許做特別複雜的運算,也不提供欄位提示。
3.簡述簡易檢索(EasySearch)界面的用途、默認的檢索資料庫和使用方法。
快速檢索界面適於通過菜單方式構成檢索策略來查找稍微複雜的課題,檢索範圍可在CompendexWeb以及INSPEC,NTIS三個資料庫中的任意選擇。輸入這個界面檢索文本框中的檢索詞,可以是單詞、片語和帶邏輯算符的位置算符。三個文本框之間的邏輯關係和檢索欄位有下拉菜單可供選擇。檢索欄位根據所選資料庫不同而變化。
快速檢索界面下部是檢索結果限制選項,有文獻的類型、性質、語言、年份以及檢索結果排序和自動詞根開關等多項。其中,文獻類型(如限制檢索期刊論文)、文獻性質(如限制檢索實驗性質的論文)和語言限制(如限制為英語),只有這個界面可以使用。
4.簡述專家檢索界面(ExpertSearch)界面的用途、默認的檢索資料庫和使用方法。
專家檢索界面適於有經驗的用戶自行構成檢索策略,以查找複雜的課題,檢索範圍可在CompendexWeb以及INSPEC,NTIS三個資料庫中的任意選擇。專家檢索界面只有一個文本框。但輸入這個文本框中的檢索策略,可以運用截詞、詞根、片語、邏輯、位置和欄位等全部算符。文本框下面設有文獻發表年份、檢索結果排序和自動詞根等選項。
5.簡述CompendexWeb的截詞算符及其使用方法。
截詞算符有“*”和“?”兩個。“*”用作左截斷、右截斷或者中間多字元屏蔽算符。例如,左截斷“*sorption”返回的結果中含有“adsorption”,“absorption”,和“desorption”等,右截斷“color*”的結果中含有“color”,“colored”,“colors”和“Colorado”等。中間屏蔽“h*emoglobin”的結果中含有“hemoglobin”或“haemoglobin”。“?”用作單字元中間屏蔽算符。例如,“t??th”的檢索結果中可以含有“tooth”,“teeth”,“truth”和“tenth”等。必須注意,位置算符不可與優先算符並用。
6.簡述CompendexWeb的詞根算符及其使用方法。
詞根算符為“$”。例如,策略“$computerization”返回的結果中含有“compute”“computing”“computer”“computers”“computerized”等。在專家檢索界面,凡需要使用詞根算符的單詞前,都需要註明“$”,在快速檢索界面中,系統對輸入文本框中所有檢索詞(除作者欄位外)都設定了自動詞根功能,可以方便有效地提高查全率。如果不想使用自動詞根功能,可以點擊這個界面上的Autostemmingoff,即可關閉。
7.簡述CompendexWeb的片語算符及其使用方法。
片語運算可以通過雙引號、大括弧和位置算符三種形式實現。例如,“vehiclegear”,{vehiclegear}和vehicleonear/0gear這三個策略返回的結果是相仿的。雙引號和大括弧中,允許把and,or,not,near作為檢索詞。例如,近地天體的策略為{nearearthobjects}。
8.簡述CompendexWeb的位置算符及其使用方法。
位置運算有“near/n”和“onear/n”兩種形式。“near/n”的含義為“near”前後兩詞相連,詞序可換,間隔最多n個單詞或空格(n為正整數)。只寫near,系統默認詞間間隔最多為4個單詞。“onear/n”與其的區別僅在於詞序固定。位置算符可以和欄位和詞根算符聯用,例如,laserNEAR/4diodewnAB,但不能和優先算符並用。
9.簡述CompendexWeb的欄位算符及其使用方法。
在專家檢索界面的下面是欄位段碼提示列表。欄位限制的命令格式為:檢索詞wn段碼。CompendexWeb資料庫常見欄位的有文摘欄位,例如“opticalfiber”wnAB,作者欄位,例如Sakamoto,K*wnAU,作者單位欄位,例如“ShanghaiUniversity”wnAF,主題詞欄位,例如"nearfieldscanning"wnCV和題目欄位,例如{atmnetworks}wnTI等。
10.解釋CompendexWeb檢索策略gear*,“vehiclegear”,vehicleneargear,(carortruck)andgear,((carortruck)andgear)wnti中使用的算符。
gear*(使用截詞符“*”)
“vehiclegear”(使用片語算符)
vehicleneargear(使用位置算符“near”)
(carortruck)andgear(邏輯與和邏輯或混合運算,同時使用了位置算符)
((carortruck)andgear)wnti(在題目欄位中做邏輯與和邏輯或混合運算,同時使用了位置算符)
11.使用主題詞檢索有什麼優點。
由於主題詞的規範性,使用主題詞檢索,所得結果的查全率和查准率一般都將有較大的改善。
12.如何調整CompendexWeb資料庫的檢索結果
調整CompendexWeb資料庫的檢索結果可以使用結果調整(RefineResults)欄目中給出的信息。這些信息包含從當次檢索結果中統計出來的前10名作者姓名和記錄數、出現頻次最高的前10位主題詞、前10位分類類名以及文獻類型、語言、出版年份和出版商分佈等項目。通過勾選所需項目,使用限制(Include,含義為邏輯與)或者排除按鈕(Exclude,含義為邏輯非),就實現調整當前檢索結果。