域內資源整合系統

域內資源整合系統

域內資源整合系統(Domain Resources Integration System, 簡稱DRIS)是由華中科技大學圖書館數字化研究部在2004年提出一種用於構建下一代網際網路信息檢索系統的理論方案,其源於對數字圖書館建設中一些基本問題的解決,後來發展成為解決當前整個網際網路信息檢索問題的理論體系。

域內資源整合系統簡介


域內資源整合系統理論的關鍵點在於採用了基於DNS的分層式結構來索引網際網路的信息資源和服務資源,這樣一方面避免了目前Google那樣集中式體系在更新率、覆蓋率等方面的瓶頸性問題,另一方面又避免了完全分散式體系無法提供高質量檢索服務的問題。

域內資源整系統的基本結構


DRIS採用和DNS系統類似的基本體系結構,是一個分層的信息資源管理系統。DRIS將網際網路分為一個個獨立的模塊“域(Domain)”,每個域內建立一個信息中心節點,將本域內的所有信息資源進行索引。這其體系結構如下所示。整個系統分為三層,第三層為DNS的三級域,一般對應於某個組織機構,如一個大學;第二層一般對應於國家的各個主幹網,如CERNET;第一層則對應於某個國家。
在具體的資源整合方面,域內資源整合系統主要採用OAI等元數據整合技術、zing等檢索介面整合技術,以及傳統的資料庫和全文索引技術,根據不同層次不同節點的特點,靈活選用不同的資源整合技術,作為域內資源整合理論的一個典型應用,“基於DNS網頁引擎”就明確顯示了域內資源整合系統的特點和優勢。
在DRIS/DNS的基本體系結構下,該搜索引擎系統在第三層採用了傳統的引擎技術,如在一個高校內構建一個完整的包含Spider/Indexer/search interface的搜索系統,而在第二層,如CERNET內,直接收集從第三層提交的索引數據即可,而無需再設置Spider進行網頁下載,而第一層只需要記錄第二層的檢索介面信息,而執行建設時候按照“元搜索引擎”的方式獲取數據即可,其功能結構如下圖所示:
功能結構
功能結構
這樣分層體系結構的優點是顯而易見的,在基本性能方面,由於網頁下載都是在第三層進行的,一般都是本地的區域網,下載更新速度都很快,然後這些底層節點上傳索引數據到第二層節點,而第一層節點由於只記錄第二層的檢索介面信息,基本不需要很多更新,這樣總體上完全可以保證全部數據每天更新,而只要有域名,也可保證所有的網頁都被索引,目前Google等主流搜索引擎平均一個月的整體更新速度,而不到40%的索引率形成鮮明的對比。此外,由於索引數據一般均遠小於原始數據,而索引介面數據更小,基於DNS的搜索系統高層節點也不需要龐大的數據中心支持,隨著網際網路信息資源的爆炸式增長,該系統的優勢將會更加明顯。
而在服務提供方面,該系統的每個層次的每個節點均提供不同範圍的搜索服務,如一個高校的搜索引擎服務,目前通用搜索系統很難在每個節點都保證很高的更新頻率和索引率,而該系統卻完全可以根據具體需要進行更新和索引,還採用一些專門的排序演演算法來提高檢索服務質量,這些都為該系統的實施提供了基本的需求和驅動力。

域內資源整合系統的理論體系組成


“域內資源整合系統”主要通過標準協議來體現,其具體包括以下幾個部分:
1 檢索協議和數據標準。一是分散式檢索系統協議,用於定義一個與平台無關的檢索介面和一個資源描述標準以及相關的訪問控制標準等。二是元數據採集系統協議,相應的協議將定義一個類似於OAI標準的元數據結構,此元數據可以兼容目前大部分元數據標準,具體的數據採集協議也將詳細定義。三是數據索引標準協議,對於一般的資源信息,一般採用DC標準及其擴展進行索引,對全文的索引目前按照Lucene的文本索引格式。
2 域內資源整合系統體系結構標準。網際網路上的任何資源只要能夠提供標準的檢索介面或兼容元數據採集標準,其均可根據不同情況納入DRIS系統。在此將定義DRIS的整體構架,各個節點之間的組織建立、協調、備份關係等等。
3 網際網路Web服務索引系統標準。DRIS的各個節點都提供標準的Web service檢索服務,並逐級提交服務信息,形成分層式的UDDI索引系統,因此很容易將該系統進行擴展,使其可以索引網際網路的其它各類Web服務。
4 基於DNS的網頁搜索引擎標準。網頁資源是網際網路上一種最主要的公共信息資源,由於其分散式、數據量龐大、索引方式特殊的特性,因此將詳細定義專門的網頁資源檢索系統,具體包括其不同層次節點的排序演演算法,數據提交規則等。
5 DRIS和IPV6系統。IPV6是下一代網際網路的最主要特徵,而且IPV6還在不斷改進中,任何有利於Internet發展的內容都可以納入其體系之中。目前網際網路正由“通訊網路”向“信息網路”轉變,信息檢索服務作為一項網際網路提供的一種最重要的服務,更需要在下一代網際網路體系結構中進行進一步改進。DRIS完全可以納入IPV6體系中,目前可以考慮將DRIS的數據流賦予較高的級別等。

域內資源整合系統的實踐


2005年國家發布了《2004-2010年國家科技基礎條件平台建設綱要》,標誌著國家科技基礎條件平台建設工作全面啟動。湖北省的條件平台建設也開始啟動,華中科技大學圖書館參與主持了湖北省科技文獻信息資源共享平台項目建設”,一期以省內高校資源的整合利用為主,同時探索高校資源向社會提供服務的手段。
由於各個參建單位資源情況複雜,而且涉及商業資料庫商,如何權衡各方利益是項目建設的關鍵,而一個清晰的技術方案則是項目成功的基本保障,該課題組提出了以“域內資源整合系統”為技術基礎的建設方案,建設分為中心節點和子節點兩大部分。中心節點主要完成平台所有資源的存儲整合,可以提供所有資源的檢索服務,包括文獻傳遞,查新等信息服務。子節點則主要作為各個參建圖書館的自有資源整合系統,提供統一檢索服務。子節點和中心節點直接的數據可以實現自動交互,而對用戶而言,在子節點查找信息過少或沒有檢索結果時,就可自動轉向中心節點進行查詢。該技術方案成本較低,提高了參加館的積極性,基於該平台展開的個性化信息檢索服務,智能虛擬參考諮詢服務等研究開發也給用戶以良好的檢索體驗。

域內資源整合系統的發展與未來


一項技術理論方案能否獲得最終實施,從根本上仍取決與其是否能夠滿足迅速發展的社會需要,是否符合技術本身的發展規律。就是網際網路信息檢索系統而言,在技術上,目前集中式體系結構的搜索引擎越來越難以及時跟蹤WWW的每一處的變化,採用一種全新的體系結構勢在必行。在商業模式上,目前的搜索引擎都是需要盈利企業而不是公益事業單位,它們多靠在本就不太令人滿意的搜索中插入廣告來賺錢,盈利壓力和用戶權益兩者幾乎成了所有商業搜索引擎不可調和的矛盾,08年9月出現的百度三鹿奶粉事件就是這種矛盾的典型體現,現有的搜索商業模式顯然很難再繼續支撐搜索引擎企業的快速發展。而作為網路技術,從TCP/IP到E-mail等等都是完全開放式的技術,而更好的商業服務則建立在這些開放技術之上,這正是網際網路路能夠長期快速發展的一個基本因素。總而言之,更高效的的體系結構,公共的、全開放的,應是是未來網際網路信息檢索系統的基本特徵。
對於域內資源整合系統理論主張“信息檢索應成為網際網路的內在功能,而每個人都應有自己的搜索引擎”,這和未來網際網路信息檢索系統的技術發展趨勢是完全一致的,而該系統的轉換成本也非常低,一旦商業模式等各方面條件齊備,只需要將現有各個層次、各個節點的DNS服務升級為可以索引資源和服務的DRIS伺服器即可,相信該理論方案必定會在未來網際網路信息檢索系統的研究和建設中佔有重要地位。