全文資料庫
全文資料庫
全文資料庫即收錄有原始文獻全文的資料庫,以期刊論文、會議論文、政府出版物、研究報告、法律條文和案例、商業信息等為主。全文資料庫免去了文獻標引著錄等加工環節,減少了數據組織中的人為因素,因此數據更新速度快,檢索結果查准率更高;同時由於直接提供全文,省去了找到原文的麻煩,因此深受用戶喜愛。全文資料庫的數量扶搖直上,當前,全文資料庫的數量與書目資料庫的比例大約已達到2:1,而且數量仍然呈上升趨勢。
全文資料庫具有強大的檢索功能,表現在它能提供豐富的檢索點,允許用戶從信息載體的人名、地名、年代、關鍵詞等多個角度進行單項檢索或多項組配檢索,甚至可對文本中任意欄位進行檢索。除具有布爾邏輯檢索功能外,還具有字元的位置檢索、截詞檢索等功能。檢索結果可根據用戶要求,按句、段、節、章輸出(顯示或列印)。
全文資料庫具有一定的信息分析功能,可對檢索結果再次處理,以進行人名、地名、關鍵詞等的聚類、統計排序。
全文資料庫還具有一定的信息計量功能,可對文本中的人名、地名、關鍵詞等進行頻率統計並排序。
與其他資料庫相比,全文資料庫有許多特點,主要表現如下。
①包含信息的原始性。庫中信息基本上是未加工的原始文獻,因而具有客觀性。
②信息檢索的徹底性。任何詞、句、字皆可檢索,還有可能看到某些邊緣性信息。
③檢索語言的自然性。可使用自然語言檢索,並可使用布爾檢索和位置檢索,因而要涉及自然語言的理解。
④數據結構基本上是非結構化的,除了某些可規範的數據外,大量文本屬於非結構化的,不便於關係資料庫的處理。
⑤專業的全文資料庫系統一般都採用“自動切詞”技術
⑥好的全文資料庫還備有知識庫,可具有推理能力和聯想式檢索。
⑦基本上是封閉性的,數據不需更新,具有較大的穩定性。
⑧全文資料庫一般佔用的存儲空間非常龐大,系統開銷大,如何提高檢索速度是一大難題。
全文資料庫有多種結構形式。
一種結構是全文資料庫由若干文庫組成,每個文庫劃分為若干個文檔,文檔由若干信息載體組成,信息載體又細分為若干片斷,片斷指構成文本的自然段落,相當於欄位。美國Mead數據中心的LEXIS就是這種結構。它是一個菜單驅動系統,一級菜單顯示文庫目錄,二級菜單顯示文檔目錄,待文庫和文檔選定后,系統開始接收提問。
另一種結構是全文資料庫由若干個資料庫組成,資料庫下不設文檔這一級結構,而是直接把信息載體分成欄位存儲。美國西部出版公司的WESTLAW就是這種結構,該系統中設有法院欄位、審判員欄位等,可提供多種檢索手段。全文資料庫結構與書目資料庫相似,其主文檔是以順排形式組織的文本文件,倒排檔則是對應於信息載體記錄可檢欄位的索引文件。全文資料庫記錄的磁帶格式一般也分頭標、目次和數據部等幾部分,在已有的全文資料庫中,根據領域信息載體、資料庫用戶和設備的不同情況,採取不同的實現方法。
全文資料庫的開發步驟包括數據準備、文本預處理、數據載入、數據檢索和數據維護幾個環節。
①數據準備是指對計劃載入到全文資料庫中的數據進行收集、整理、歸類等預先處理的過程。載入到全文資料庫中的數據可以從多種途徑獲得,常見的數據來源有:電腦打字產生的文件,電子印刷產生的文稿,計算機網上傳送的文件,電子出版物,圖文處理產生的文件,專門組織人力錄入建庫等。數據收集起來之後,要進行一些簡單的分類。一般是按照數據內容進行分類,同一類內容載入到同一庫中,這樣便於查找。分類對於數據量大的情況,效果比較明顯。
②文本預處理包括規範格式和進行標引。當文獻格式多種多樣時,應加以整理,使文獻的格式規範化。本預處理階段完成的批式標引,不受全文資料庫結構的限制,效率較高。這是在建立全文資料庫之前,利用文字處理軟體和專用自動標引軟體對數據進行的標引。建立標引詞表有幾種途徑可由系統建立者在瀏覽文本后編製,也可以由編者在計算機對文本中的詞加上特殊符號后,由專用軟體對其進行搜集、合併、排序、去重而成,還可以在前面基礎上增加屬性標引。
③數據準備好以後,便可以載入(拷入、輸入)到資料庫文件中去。載入數據可有單篇方式或批量方式。單篇方式一次載入一篇,適於平時文獻隨時載入的情況;批量方式一次載入多篇,適於集中大量載入的情況。
④資料庫建立之後,便可根據全文檢索系統提供的檢索功能對資料庫進行檢索。
⑤全文資料庫建立以後,需要經常對資料庫的內容進行索引、更新、追加和整理,以保證資料庫的實用性、有效性和完整性。對全文資料庫的維護通常包括:全文資料庫的結構定義,全文資料庫的數據內容,全文系統中所用詞表、存儲空間的利用統計及調整。
根據全文資料庫中的信息內容呈現形式劃分,全文資料庫的類型主要有電子版圖書、電子雜誌、電子報紙等。
電子版圖書一般與印刷版平行出版,並具有瀏覽、檢索、排序、列印、套錄等功能。電子圖書可上網,提高了文獻傳輸效率和文獻的可獲得性。電子圖書的出現將改善(改變)人們的讀書習慣。
電子雜誌可使文獻的檢索同原始文獻的獲得結合起來。包含多期刊的全文庫,可進行跨學科、跨刊種的全文檢索,擴大獲取資料的來源範圍。由中國學術期刊(光碟版)。
電子報紙把報紙文章和新聞報道通過資料庫存儲和管理,並可進行網上檢索查詢。《紐約時報》全文庫Information Bank是這類資料庫的先驅,後來被收入Mead數據中心的NEXIS系統之中。我國《人民日報》社和北京金盤電子有限公司合作發行的《人民日報全文資料庫》光碟版,《中國日報》社和中國科技資料進出口總公司合作發行的《中國日報全文資料庫》光碟版,是我國第一批新聞報業的全文資料庫。
源資料庫
中國期刊全文資料庫
世界上最大的連續動態更新的中國期刊全文資料庫,收錄國內8200多種重要期刊,以學術、技術、政策指導、高等科普及教育類為主,同時收錄部分基礎教育、大眾科普、大眾文化和文藝作品類刊物,內容覆蓋自然科學、工程技術、農業、哲學、醫學、人文社會科學等各個領域,全文文獻總量 2200 多萬篇。按學科分為168個專題,每日更新,年新增文獻100多萬篇。
中國期刊全文資料庫(世紀期刊)
收錄回溯1979年至1993年的4195種期刊,部分期刊回溯至創刊,最早回溯至1887年,按學科分為168個專題,現有文獻500多萬篇,每月更新。
中國博士學位論文全文資料庫
收錄1999年至今420個博碩士培養單位的學位論文,現有論文5萬多篇,每日更新。
中國優秀碩士學位論文全文資料庫
收錄1999年至今652個博碩士培養單位的學位論文,現有論文37萬多篇,每日更新。
中國重要報紙全文資料庫
收錄2000年至今700多種重要報紙,現有文章645萬多篇,每日更新,年新增文章120萬篇。
中國重要會議論文全文資料庫
收錄2000年至今1200多家學術團體的會議論文,現有論文近58萬篇,每日更新。
中國圖書全文資料庫
一期工程即將完成,首批3萬種新書已上網服務,每日更新,年新增圖書10萬本。
專業知識倉庫
中國醫院知識倉庫
收錄1400多種醫學期刊,108家醫學博碩士培養單位學位論文,內容每日累增。
中小學多媒體數字圖書館
收錄500餘種教育類期刊,2000多種相關期刊,400餘種相關報紙,以及多媒體教育教學素材、高初中同步教學輔導、高考中考名師輔導等,內容每日累增。
中國企業知識倉庫
彙集企業所需期刊、優秀博碩士論文、重要會議論文、報紙全文、圖書全文、新書目等數據資源。涵蓋企業所需各類信息資源、知識資源,利用現代信息技術進行加工整合,以最方便快捷的傳播手段,為企業提供可有效利用的資源。主要分鋼鐵冶金、鋁業、石油化工、石油天然氣勘探、電力、發電、電網、金融、保險、證券、基金等各個行業、企業知識庫,內容每日累增。
知識元資料庫
數值型知識元庫
包括從各類統計年鑒及各種專業文獻中抽取的統計數據和科學實驗數據。
理論與方法型知識元資料庫
包括從各種百科全書中抽取的專業術語解釋及從各種專業論文中抽取的觀點、理論、方法和技巧等知識元。