書目資料庫
書目資料庫
書目資料庫 是存儲某個領域的二次文獻(如目錄、題錄,文摘等書目數據)的一類資料庫,有時又稱為二次文獻資料庫,或簡稱文獻資料庫。主要提供文獻的題名、作者、出處等基本書目信息,有的提供文獻,常見的書目型資料庫有:《生物文摘》、《全國報刊索引》、《中國學術期刊文摘》、《科學文摘》等。
在各種資料庫之中,書目資料庫是出現較早的一類資料庫。從1964年第一個書目資料庫——MEDLARS開發成功並投入檢索服務以來,世界各國已建立了數目眾多、種類多樣的書目資料庫。在可提供聯機檢索的資料庫中,書目資料庫也佔據著主體地位,幾乎覆蓋了全部專業領域的各類文獻。書目資料庫之所以增長如此迅速,影響如此之大,是有其特定的歷史背景的。
第一,書目資料庫的出現和發展有其情報政策背景。在當代,信息被公認為是財富和實力的象徵,控制和處理信息的能力被認為是一個國家科技發展水平、社會進步程度和國際地位的標誌。世界各國特別是發達國家都把信息作為一種戰略武器,控制信息成為國家的基本政策,也成為民間產業的關心重點。這是書目資料庫發展的情報政策背景。
第二,書目資料庫的發展也有其一定的社會原因。在資本主義國家,通貨膨脹使圖書館經費日感短缺,書刊的漲價十分驚人,而科技圖書的出版數量卻在不斷增加,許多圖書館感到無力採購讀者所需要的書刊,不得不加強館際互借、照相複製等工作,此外,還致力於建立合作網路,實現資源共享。這方面採取的一個措施,就是建立和利用機讀資料庫。如美國國會從1969年起發行機讀目錄(MARC)磁帶,俄亥俄學院圖書館中心OCLC在國會圖書館MARC磁帶的基礎上進行共享編目,建立反映該網路各成員館藏書的機讀資料庫,並且由此導致了像洛克希德、系統發展公司及書目檢索服務公司等這些情報檢索服務商的發展,從而為機讀資料庫的大幅度增長鋪平了道路。
第三,書目資料庫的發展更有其技術背景。書目資料庫同計算機化的照相排版技術相結合,使得那些傳統的印刷型文摘索引的出版者同時也生產同印刷型檢索工具相對應的機讀型檢索工;艮,即書目資料庫,並以磁帶形式發行。另外,計算機性能的提高和價格的不斷下降,也有力地推動了書目資料庫的發展並提高了它的利用率。
書目資料庫按其存儲信息的性質可以劃分為文摘索引資料庫和圖書館目錄資料庫兩種類型。
文摘索引資料庫
文摘索引資料庫的內容與書本式文摘索引相同,主要是簡單記載有關領域某一時期發表的文章,供人們檢索和查詢。它提供文獻確定的來源信息,即文摘對應的原始文獻,但一般不提供原始文獻的館藏信息。
圖書館目錄資料庫
圖書館目錄資料庫,通常又稱為機讀目錄(Machine ReadableCatalogue,MARC)。它是指以特定代碼形式和特定結構預三錄在計算機存儲載體上的、用計算機識別和處理的目錄。簡單地說,就是一種經過人們編輯、組織,以機讀形式出現的書目記錄的集合。它將傳統卡片目錄的內容以標準數據形式記錄在計算機的存儲載體上,通過計算機進行識別,以供用戶查閱。機讀目錄主要記載特定圖書館實際收藏的各文獻資料的書目信息和存儲地址,它是一般用戶利用計算機查找圖書館資料的工具,更是作為圖書館業務部門的業務管理工具。它的數據內容詳細,除文獻外表特徵的描述信息外,還有許多管理信息、館藏信息等附加信息,而且具有比較統一的記錄格式。
書目資料庫相比其他類型的書目產品和其他類型的資料庫,主要有以下特點:
1、便於對書目數據的管理和維護。與傳統的書目相比,書目資料庫是將文獻的各種特徵信息用特定的代碼形式和結構存儲在有關媒體上,並能通過計算機的硬體識別的一種形式。它可以應用計算機軟體對那些從媒體上輸入計算機的代碼按不同的要求進行加工、編輯和輸出,隨時供用戶使用,從而使資料數據得到更大程度的有序化和可操縱化,從而便於書目數據的管理和維護。
2、檢索快捷,具有較高的查全與查准率。同手工檢索比較,利用計算機從書目資料庫進行檢索不僅可以大大節省時間,而且由於書目資料庫在存儲密度、便於處理等方面的優越性,使它可以達到更大的標引深度和更及時的更新,從而保證了較高的查准率與查全率,使檢索者在避免遺漏重要資料方面增強了信心。
3、數據結構簡單,記錄格式固定,生產費用低廉。相對其他類型的資料庫,書目資料庫結構比較簡單,記錄格式也比較固定,生產費用相對較低,這也是書目資料庫的另一優勢所在。
4、便於產生其他類型的書目產品。書目資料庫除可供情報檢索之外,還可輸出卡片或書本式目錄以及縮微膠片目錄(COM目錄)。各種機讀目錄可以自動地合併,並便於複製和運輸傳遞。另外,還可以利用書目資料庫方便地形成各種輔助索引。
除此之外,數據量大、連續性、累積性強、交換方便也是書目資料庫的重要特性。
首先,書目資料庫最重要的用途是進行情報檢索服務。聯機檢索是其提供的檢索服務中最重要的一種,它通過提供多種檢索人口,滿足讀者多方位、多角度的文獻檢索需求,用戶可以通過系統終端訪問有關聯機書目資料庫,獲得自己感興趣的文摘、題錄等。聯機檢索服務機構可以通過提供上述服務來獲取一定的利益,而資料庫生產者則通過收取數據使用費的方式來回收自己的投資。除聯機檢索外,書目資料庫還可用於批式檢索服務,如定題服務(SDl)和回溯檢索服務。
其次,書目資料庫可以用來生產其他形式的檢索工具,如出版書本式的檢索工具或卡片式目錄、縮微膠片目錄和光碟資料庫。
最後,還可以通過對書目資料庫的半成品或成品進行二次開發,使數據產生新的組合,確立新的結構,從而獲得特定1需要的多種專題資料庫或專門類型的資料庫。這種通過二次開發方式建成的資料庫一般規模較小,國外有人將其稱之為微資料庫(miicrodata·base)。當然對於微資料庫而言,其建設的主要問題不是技術問題,而是資料庫的版權問題,在建設中應當充分加以考慮。
目前供發行的書目資料庫主要以三種形式存在:
1、作為聯機系統的資料庫。即這種資料庫被裝入聯機檢索系統,可進行聯機訪問。這種資料庫的規模可能是最大的,有的可包含數百萬篇文獻記錄。
2、作為光碟檢索系統中的資料庫。這種資料庫的載體是CD—ROM光碟,因而發行具有相對獨立性。資料庫的規模屬中等,因為每片光碟的容量為500多兆位元組,所包含的文獻記錄可達數十萬篇。
3、作為單獨發行或提供服務的專業或專門文獻類型的資料庫。這種資料庫的規模較小,適用於在微機上運行,往往配有相應的檢索軟體,自成系統。
書目資料庫的建設是一個較為複雜的過程,更是一種集知識、技術和勞動密集於一身的產業。它主要包括資料庫的總體:設計、數據的獲取與加工整理、資料庫的建立、資料庫的維護與更新以及資料庫的評價五部分內容。
資料庫的總體設計
1、資料庫的邏輯設計
邏輯設計主要用來確定所建立的書目資料庫的用戶類型、內容範圍和功能要求。首先要確定用戶類型,他們各有何特點和特定需要。他們的需求決定了資料庫的內容範圍和功能。內容範1司是指資料庫應覆蓋哪些領域和哪些情報源,資料庫內應收錄什麼類型的數據,記錄的數量等。功能要求包括書目資料庫的更新、校驗、檢索、輸出、存取控制和數據保護等措施。
2、資料庫的技術設計
技術設計主要用來確定資料庫的總體結構,庫內各種:文檔的結構,文檔之間的關係,存取路徑的選擇和文檔的物理組織;桿式及存儲空間的分配等。
資料庫總體結構是指庫內包括的文檔數量、文檔類型、各文檔之間的邏輯關係,以及數據流程。
文檔結構設計是指確定文檔的記錄內容和格式,包括欄位組成、欄位定義、長度、劃分可檢欄位與不可檢欄位、設立欄位標識等。一般地,一條書目記錄應含有文獻號、題名、著者、出版、語種、文摘、主題詞、分類號等各種必要的欄位,且一般包括文獻出處。不同的圖書情報機構在書目加工時對原始數據的取捨有很大差異。為了統一起見,可參閱新修訂的國家標準GB2901推薦的標準格式以及通用國際目錄信息交換標準IS02709。
文檔的物理組織方式設計是指根據計算機數據處理方式、操作系統提供的文件組織方式、存取方式、服務程序以及對存取時間、處理時間的要求,確定各種文檔物理存儲方式,以加快資料庫對數據的存取速度。
存取路徑的選擇是指確定檢索途徑或檢索點以及相應的工作文檔,根據檢索點來設定索引文檔,定義其中的記錄。一般說來,每一類檢索點都需要一種索引文檔來支持。
數據的獲取與加工整理
數據的獲取與加工整理,也可稱為數據準備階段,是:幅目資料庫建設的一個重要環節。它的成功與否決定了書目資料庫的最終價值。數據準備通常包括數據採集、鑒選、著錄、標引、文摘加工和審核六大步驟,如下圖所示:
數據準備流程圖
鑒選是決定書目資料庫具體內容範圍的基本方式之一。鑒別真偽、分清良莠是必要的,不能“有書必錄”。對於低水平或明顯有錯誤的文獻應當摒棄。在選擇時,可以文獻類型為準則,也可以學科為準則,或以問題或任務為準則。以文獻類型為準則,可以專收一種類型文獻,如研究報告資料庫、專利文獻資料庫等,也可以收錄多種類型的文獻;以學科為準,就是所謂“面向學科的資料庫”,如(化學文摘}資料庫,《核物理文摘》資料庫等;以問題為準的資料庫,如環境資料庫,《污染文摘)資料庫等;以任務為準的,有所謂面向任務的資料庫,如{航空航天文摘)資料庫等。
其次是書目數據的著錄。著錄是對文獻內容和形式特徵進行分析、選擇和記錄的過程。為了提高書目資料庫的質量和資源共享的便利性,書目數據的著錄應按統一的著錄原則和標準進行,例如我國有國家標準GB3792.1—83《文獻著錄總則》,GB37921—83(檢索期刊條目著錄規則》等,只有遵循了統一的標準進行書目數據的著錄,才能保證書目資料庫中的全部記錄符合標準化和規範化的要求。
標引是給資料庫中的各個記錄賦予內容特徵標識的過程。主要是要給出分類號、主題詞和自由詞等。標引可以是人工標引,即標引員針對文獻內容,根據一定的分類表或主題詞表給出標引詞;也可以是完全或部分由計算機參與的自動標引或半自動標引。自動標i引的原理是,將分類表或詞表及有關規則存儲在計算機中,通過編製的程序自動完成標引工作,對於在計算機標引過程中進行適當人:工干預的標引就是所謂的半自動標引了。對於中文文獻來說,進行自動標引,首先要解決詞的自動切分問題。此外,標引還有另一種方式,稱為“無標引”或“全標引”,如單漢字檢索方式中每個漢字都由計算機做倒排檔,因此不需人工參與,故被稱為“無標引”。而從計算機的角度來說,對每個漢字均作了標引詞的處理,所以也可理解為“全標引”。相對於中文文獻,西文文獻的自動標引和全標引實現起來就要簡單多了。
之後是文摘的編寫。文摘的編寫加工也十分重要。編寫文摘應當一針見血,簡明扼要。文摘可以由文獻著者自行撰寫,附於文獻之前,也可以由文摘員進行撰寫。文摘的編寫也應當標準化,我國有國家標準CB6447—86《文摘編寫規則》作為編寫依據。文摘有報道性文摘、指示性文摘以及報道—指示性文摘等多種類型,不同類型的文摘對編寫和長度有不同的要求。編寫時應根據具體的需要進行相應的編寫。
數據準備階段的最後一關是審核修正。審核修正是指記錄正式資料庫之前的把關工作。這須由較高水平的人來進行。審核的內容包括數據項是否完備、準確,有關的著錄是否符合標準,標引深度是否適當,等等。
經過了這六大步驟,數據的準備工作就已基本完成,下一步就應進行資料庫的正式建立工作了。
資料庫的建立
1、硬體配置與軟體選擇
進行書目資料庫的開發,必須配有相應的計算機系統,應根據需要購買性能良好的計算機硬體設備。當然,通常情況下,計算機主機系統是已經存在的,建庫者要做的是完成必要的終端和外設與主機系統的連接,例如,安裝光碟驅動設備,掃描和列印設備等。如果建庫工作是在聯機網路的節點上進行,那麼還要完成設備與網路的連接工作,解決網路數據通訊問題。
解決了硬體問題后,建庫者需要選擇適當的建庫和檢索軟體。建庫軟體的獲取一般有兩種途徑,一種是購買現成的資料庫管理系統軟體,另一種是自行編製。當然目前大多採取的都是前一種途徑,即直接購買現成的資料庫管理軟體。我國圖書情報部門比較流行的是採用聯合國教科文組織推出的CDS/ISIS軟體。
2、數據錄入
數據錄人就是將前面所說的文獻處理結果轉化成機讀數據的過程。數據錄入通常有兩種方式:自動錄入和平工錄入。
手工錄入的方式是對非機讀書目信息的錄入。計算機系統顯示出一個類似於工作單的表格,上面有用戶定義的欄位名稱,用戶只需在這些欄位名稱之後用鍵盤錄入相應數據即可。為了加速錄人工作,用戶也可以用其他文字處理軟體(如MICROSOFTWORD)對書目數據進行錄入,之後再做成批轉換;另外還可以利用光學字元識別技術(OCR),讓計算機根據一定的印刷或列印字體將文本轉化為機讀形式。
自動錄入的方式用於對光碟資料庫、磁帶資料庫或其他類型的機讀資料庫的數據進行轉錄或套錄。所謂套錄,就是從一個或幾個計算機中獲得資料庫的數據,傳送到另一計算機中,並將其存儲在後者的磁碟或磁帶等存儲介質上的一種過程或手段。具體地說,就是從聯機檢索系統或光碟中的資料庫中套錄下一些書目信息,然後,再將這些書目信息進行編輯、歸併、格式轉換等再處理,使數據產生新的組合,確立新的結構,從而獲得適合特定需要的書目資料庫。這種套錄建庫方式,也稱為書目資料庫的二次開發。信息技術和資料庫業的發展,促進了套錄的誕生和推廣。目前供發行和服務的書目資料庫,不管以何種形式出現,大多可以用適當的方法被套錄。這種套錄建庫優勢在於,建庫周期短、投資少、易上規模、重複勞動少,使信息資源得到極大程度的共享。但它可能涉及到的產權問題也應引起重視,切勿顧此失彼,帶來未曾預計的損失。
當手工或自動錄入數據后,在建庫軟體的支持下,計算機自動生成書目資料庫的各種順序文檔。這種資料庫內的書目信息有其複雜的計算機能識別、處理的機內記錄格式,內容主要包括:一條記錄的總長度,書目數據的實際起始地址,每個欄位的名稱、長度,欄位間的分隔符、結束符、記錄狀態的標識符等。另外,資料庫所需的各種索引倒排文檔也無需人工干預,而由建庫程序自行完成。
3、程序檢查
程序檢查是指計算機自動對錄入的文本進行形式上的審查,例:如,括弧是否配對,定義了數字形式的欄位是否出現文字;定長欄位長度是否符合要求,欄位的數據形式,如ⅡSBN號,是否正確,各種標識符號是否有錯,是否出現了系統禁止使用的專用字元或非法字元等。計算機對數據的校驗可分別在不同階段進行。
經過了這三道工序,書目資料庫就已經基本建成了。但在正式投入使用之前,還需要進行試運行。根據規劃設計要求,選取一定的檢索實例進行檢驗,通過設計者、使用者和有關專家的鑒定之後,才算完成資料庫的建立工作。
書目資料庫的維護與更新
書目資料庫投入運行后,由於不斷地對文檔進行插人、刪除、修改等操作,可能會使文檔的時空性能變壞,或者是由於原來的文檔組織方式已不能適應新的要求,或者新書目的激增使得原來的數據量已不能滿足用戶的需求,故而必須定期地對書目資料庫進行維護與更新,以適應用戶要求和文獻生產情況的變化。維護主要是指對資料庫系統硬體設備的維修、保養和對系統軟體功能的修改和擴充。更新主要是指對資料庫的數據進行添加和重新組織,它對書目資料庫的存在和使用,保證書目數據的質量有著尤為重要的意義。
資料庫的數據往往不是個別進行插入、刪除和修改,而是定期、批量地進行。這種資料庫的更新,不僅要對順序文檔進行更新,而且還必須對所有相關的倒排檔及索引文件進行重組,這就要求要對新追加的大量數據進行一系列加工處理后重裝文獻庫。重裝雖然要開銷一定的維護時間,但可以保證檢索的快速性,因而是值得的。另外。資料庫的更新工作還要隨文檔的存儲方式而:導。順序文檔一般採用尾接擴充法,就是將新的書目記錄依次尾接;庄文檔後面;索引或倒排文檔通常採用重裝方法,即將新加記錄抽詞排序后的文檔與原來的排序文檔歸併,然後重新總體排序,建立索引。
另外,在資料庫的維護中一定要重視資料庫及其文檔的備份工作。一般地,順序文檔和倒排文檔都應該保存2—3份副本,即不僅保留本次更新的副本,而且要保留前1—2次更新時的副本。這樣,如果由於硬體故障等原因使得資料庫文檔不能正常使用時,就可用副本重裝一次,從而保證資料庫的正常運行。
書目資料庫的性能指標和評價準則
一個書目資料庫建成后,其構造是否合理,建設是否成功,要依據一定的性能指標和評價準則進行評估。這裡我們將簡要介紹一些目前得到普遍認可的資料庫性能指標與評價準則。
1、數據收錄的完備性
它是指根據資料庫的主題範圍,看其收錄的文獻數據是否完整或基本完整。其中最重要的是數據收錄的覆蓋面。例如,一個特定的書目資料庫,其收錄是否包括所有類型的出版物,還是某一特定類型的出版物;它所收錄的文獻包括哪些文種,其時間跨度又有多長;它對核心出版物、一般出版物、邊緣相關出版物的收錄和覆蓋面各有多大。
收錄完備性是資料庫質量的首要指標。因為用戶使用書目資料庫的目的,是要獲得與自己特定情報需求相關的全面資料,如果資料庫本身收錄的數據就不夠全面,那麼即便用戶非常專業,進行了細緻的檢索,所獲得的檢索結果也是不符合要求的。
2、數據的準確性
書目資料庫中所收錄的數據必須非常準確,這體現在它與原始材料的一致性、著錄的標準性等多個方面。資料庫不同於利用手工檢索的書目文獻,在手工檢索的文獻中,用戶對著錄格式的差異、同一詞拼寫上的不同、字元設備的出入等在一定程度上可以容忍和理解,但在利用計算機進行機檢時,這些因素,甚至一個括弧使用的不同,都會對用戶的利用產生很大影響,無論對建庫還是檢索都會造成一定的混亂。如果說資料庫收錄材料覆蓋面的高低是取得用戶信賴的量方面的因素,那麼,資料庫中數據的準確性,則是取得用戶信賴的質方面的因素。它的混亂將導致用戶對整個資料庫價值的否認。
3、資料庫的時效性
在這裡主要是指資料庫的時差,即從一篇文獻出版發表到納人資料庫之間的時間差距。資料庫的時差就是全庫文獻的平均時間差距。不同學科領域對時差的要求和敏感性有所不同,對於迅速發展中的學科,如計算機、網路科學,及對現實性要求比較高的信息,如報紙信息,資料庫時差的縮短尤其重要。對於情報用戶來說,如果他們首先看到了原始文獻,然後才從資料庫中檢索到該文獻的信息,用戶就會感到該資料庫中的信息缺乏新穎性。因此,對一般用戶來說的新穎率(即用戶最先從庫中了解到的信息占庫中所有信息的百分比)是資料庫時效性的另一種衡量指標。很顯然,資料庫的時效性與資料庫的更新周期有密切的關係。更新周期短,自然能縮短資料庫的時差,提高新穎率。
4、數據信息含量的充分性
信息含量的充分性,主要是指書目資料庫中款目苦錄:的完備與充分性。例如,為每篇文獻記錄設置了多少個項目(欄位),是否設有摘要,摘要的詳略如何。顯然,款目中的信息含量越充分,則越有助於用戶了解該文獻的外表特徵與內容特徵,從而有助於用戶確認一篇文獻,判斷該文獻對自己檢索目的的切題程度和價值,判斷有無閱讀原文的需要。數據信息含量的高低,是資料庫內在質量的標誌之一。
5、詞表和標引的適當性
詞表和標引的適當性主要是指書目資料庫採用的控制同表的質量和標引深度的適度性。一般書目資料庫均會採用一定的控制詞表(包括分類表)作為標引的依據,因此詞表本身的質量是制約資料庫質量的根本性因素之一。標引是根據文獻內容給出詞表中有關詞(分類號)的過程。標引的深度就是為一篇文獻記錄賦予檢索詞的數目。從用戶角度來說,標引深度也就是能檢索到該文獻內容特徵的檢索點數。檢索點的充分與否,關係到檢索的查全性能與查准性能。無論是詞表還是標引,適度是很重要的。如果詞表與標引太簡單粗淺,自然無法對數據進行充分完全的描述,因而不能滿足查准性能的要求;但如若詞表與標引太細太繁,則不僅會增加詞表編製及標引工作的成本,增加資料庫佔用空間,而且也可能導致誤檢率的提高。
除了上述五點之外,資料庫的經濟成本、著錄格式的標準與交換性、資料庫設計的合理性等也都可以作為書目資料庫的性能指標和評價準則。