DSpace

數字空間系統

DSpace(數字空間)系統是由美國麻省理工學院圖書館(MIT Libraries)和美國惠普公司實驗室(Hewlett-Packard Labs)合作,經過兩年多的努力,於2002年10月開始投入使用。該系統是以內容管理髮布為設計目標,遵循BSD協議的開放源代碼數字存儲系統。系統可以收 集、存儲、索引、保存和重新發布任何數字格式、層次結構的永久標識符研究數據。

系統簡介


DSpace是一個專門的數字資產(Digital assets)管理系統,它管理和發布由數字文件或“位流”(bitstreams)組成的數字條目(item),並且允許創建、索引和搜索相關的元數據以便定位和存取該條目。它包括的基本概念主要有:
數字空間群(DSpace communite):數字空間是針對數字材料的長期保存而設計的。數字材料來源於不同的組群,比如大學的院系、實驗室,圖書館的採訪、編目等部門,這些依據不同的授權完成不同任務的組群稱作數字空間群。
1)電子用戶(e-people):DSpace的用戶可能是教師、學生,也可能只是一些計算機系統,因此DSpace把用戶稱作“E人”。
2)工作流(workflow):DSpace的運作方式,數字材料和元數據在被接受之前經過事先設定的流轉審核的步驟;
3)信息訂閱(subscription):用戶可以向DSpace發送訂閱請求,以便在新材料到來時收到帶有內容提要的Email提示。

功能特點


其特點可以歸結為三個要點:基於存儲的資產管理;以事件觸發構建的工作流機制;以分級許可權控制的管理體系;
基於存儲的資產管理
DSpace首先是基於存儲管理的,它提供對所有數字格式的支持,比如文檔、書籍、資料庫、計算機程序、虛擬和模擬模型、多媒體出版物和學習對象等等。另一方面,對於印刷型文獻,DSpace也可以通過元數據進行存儲管理,利用URL和館藏地點來區分文獻服務的方式。
Dspace支持兩種存儲模式:“位”存儲(bit preservation)和功能存儲(functional preservation)。
位存儲,保證提交的數字材料沒有任何改變,即每一位(bit)均保持原樣,在多年以後仍然可以將文件復原出來。
功能存儲,是隨著時間的變化改變存儲內容的格式,以保證當舊有格式淘汰后,數字材料還能夠被隨時調用(可瀏覽、可運行、可檢索……)。
顯然,功能存儲是理想的存儲狀態,但需要更多的經費支持。
Dspace對於文件格式定義了三個層次:支持的格式、知道的格式和不支持的格式。
有些文件格式很容易向通用的格式轉化(像TIFF圖像或XML文檔),而有些格式會由於專利等原因很難實現功能存儲。
對於上述的三個層次,DSpace建議在經費允許的情況下,同時進行“位”和“功能”存儲,以便一旦時間證明哪種格式可以更有效地呈現素材時,“數字考古學家”能夠獲得最初的原料。
工作機制
DSpace的運作是以事件觸發的機制來實現的。誰可以存儲材料,怎樣存儲,誰可以利用存儲的材料,誰負責管理?這一系列問題在可定製的管理策略下完全由事件觸發來解決。
在DSpace中有很多的數字空間群,對於內部工作部門(數字空間群),通常,所有工作人員都設定為“提交者”(submitters),而其中的一部分人又被設定為“審核者”(reviewers),負責人則設定為終審者(coordinator)。每個數字空間群中都存在著“提交者”、“審核者”等等的角色。這些角色可能指派給很多人,組成角色群,或稱“電子工作組(e-person group)”。
任何一個對系統的請求,從檢索、瀏覽到材料提交,都會觸發不同的工作流,並進入相應的“任務池(Task pool)”,經過審核、元數據編輯和終審等等環節最終進入DSpace。而該工作流涉及的每一個步驟的電子工作組,都會因為自己的角色而獲得通知,使相應的電子用戶可以進入個人數字空間(Individual DSpace)來完成任務。
典型的事件如新書採購:書商(用戶)向圖書館(DSpace)提交書目,新書通告被放入採訪部(acquisition數字空間群)的“任務池”,處於採訪數字空間群的專業人員可以從“任務池”中獲取書目進行審核,(相同的書目將被移除,以免重複相同的工作流。)如果審核通過,系統產生訂購單;如果是即時生效的數字資源,這一事件將觸發DSpace的元數據編輯工作流;如果審核不通過,用戶將得到附有審核人員意見的通知書。
對於外部數字空間群,匿名用戶可以通過WEB訪問進行檢索和瀏覽,授權用戶則可以將自己的材料提交DSpace,觸發館藏接收工作流。比如教師的課件、博士的學位論文,這些數字文獻本來就是數字圖書館的館藏來源,通過DSpace的工作流,經過專業館員的審核和元數據編輯,很方便地進入館藏。
DSpace(數字空間)
DSpace(數字空間)
另外,作為數字圖書館功能的拓展,用戶還可以在授權的個人數字空間中臨時或永久存放數字材料。
管理體系
數字空間群擁有不同的電子工作組,不同的組擁有不同的許可權。
某些DSpace的功能,比如檢索、瀏覽等可以是匿名的,但是,如提交、訂閱以及管理等功能則需要經過用戶認證。
DSpace提倡“電子用戶”(e-people)的概念,每個電子用戶需要向DSpace提供如下信息:
E-mail 地址
姓名
認證信息,比如密碼
訂閱專題列表
DSpace有一個可變的認證系統,它採用的是“預設否定(default deny)”的策略,比如,一個電子用戶對某個元數據具有“讀”許可權,但他未必就擁有對此元數據指向的材料的“讀”許可權。

優缺點


開放源代碼
DSpace系統是一個開放源代碼的軟體平台,可以從其網站上免費下載,可以自由使用、複製和修改。其所使用的第三方軟體也是開放的源代碼,如PostgreSQLJDKApache等。DSpace主要代碼均為Java編寫,可以運行於所有UNIX系統。
修改和擴展功能容易
DSpace提供了幾個支持API介面的內置程序,可以通過它簡化和加速數字館藏的開發,在一定程度上為系統提供了擴展和修改的能力。另外,由於Java虛擬機是由HTML和部分嵌入的Java代碼組成的,基本上不需要觸動其核心的代碼就可以方便地修改它。
支持文件類型
DSpace可以接受的電子化材料包括:
論文與預印稿(Articles and preprints)
技術報告(Technical reports)
僱用證書(Working papers)
會議論文(Conference papers)
電子論題(E-theses)
數據集,包括統計數據、地理信息數據、數學等等(Datasets: statistical, geospatial, matlab, etc.)
圖像,包括可視化圖像、科學圖表等(Images: visual, scientific, etc.)
聲頻文件(Audio files)
視頻文件(Video files)
學習對象(Learning objects)
重定格式后的數字圖書館館藏(Reformatted digital library collections)
DSpace可以存儲、管理和發布任何已經和未經出版的本地館藏,保證印刷和數字文獻的統一索引和定位。
檢索功能強大
DSpace的目標就是提供盡量多的檢索特色。DSpace的索引和檢索模型有一個API介面,允許非常方便地索引新內容,重建索引以及在指定範圍內檢索。這個API來自免費的Java搜索引擎——Lucene。Lucene支持欄位檢索、停詞(stop words)、詞幹(stemming)以及不重建索引增加新的索引內容的能力。
界面簡潔友好
所有的DSpace用戶界面都是基於WEB的,並且包含一系列的界面:用戶提交界面、搜索界面、系統管理界面以及提交審核的各種界面。利用Java虛擬機和Java伺服器技術,DSpace允許用戶通過瀏覽器訪問系統,這使DSpace的使用和管理都十分方便。
建立DSpace聯盟
在虛擬存儲技術的支持下,利用DSpace聯盟,還可以實現虛擬館藏:聯盟的館藏對於用戶完全透明,用戶通過WEB界面訪問元數據,併發送資源請求。 DSpace可以根據標準協議進入不同院校的系統,如康奈爾大學的arXiv ,通過本地的存儲過程自動獲取有關的文檔備份。用戶只需點擊鎖定(located)的條目,它就會被下載到WEB瀏覽器中。如果是一種WEB支持(Web -native)的格式,它就會立刻顯示在瀏覽器中;否則它就被存儲在用戶的計算機上,象Excel數據表或者CAD文件,需要以特定的程序來打開它。
DSpace的不足
當然DSpace也存在不足之處,當要對DSpace 系統擴展功能進行比較複雜的修改時,需要修改系統的核心組件,這給系統的資料庫結構和兼容方面帶來影響;另外,DSpace系統不支持原始內容的創建,但可以以工作流方式捕獲任何支持主動文檔開放協議(Open Archives Initiative)的數字資源和元數據。

應用範例


在DSpace的眾多用戶中,劍橋大學機構倉儲較為成功。開放存取庫名錄(OpenDOAR)中收錄的機構庫,只有有10%記錄條數超過1萬條),而劍橋大學收錄的記錄超過19萬條。
劍橋大學機構倉儲收錄了大量由劍橋大學成員創建或擁有的研究成果及其他學術內容,如研究文章、報告、發表論文(預印本或後印本)、會議文章、技術報告、數據集、多媒體文件、學習物品、管理資料以及與任何特定主題有關的任何其他資料。具體的使用案例有:
研究論文──高能物理
一個研究小組希望聯機維護其預印本,決定在劍橋機構庫中保存一個本地副本以增加保險係數。
視頻──社會人類學
一位人類學教授拍攝了佛教聖地等大量素材,同時將研究過程中與當地人的交流以及研究者之間的談話也作了存檔。他希望在自己的學生之外的大眾中共享這些資料,於是提交到劍橋倉儲庫。
圖書──哲學
一位哲學教授希望與世界共享其思想。他出版過圖書,但現在已經絕版了。他和出版商解決了版權,在劍橋倉儲庫上存放書籍並鏈接到個人網頁,並附上了一些其他的內容,例如電台廣播及文字稿。
對這位教授思想感興趣的讀者,能夠獲得他更多的
學位論文──材料科學
一位博士生希望發布其學位論文以在全球研究界獲得關注。導師指點她到提供免費發布服務的機構庫並與出版社協商解決版權問題。獲得商業出版社的同意后,將自己的學位論文加入數字倉儲的出版物列表並附上了永久URL,現在搜索引擎中查詢她的姓名或標題關鍵詞時,她的學位論文在檢索結果中十分靠前。
支持數據──腫瘤
某系許多研究者希望共享以前發表的研究文章中支持發現的數據,出版社對此並不關心,而且數據佔據了本地伺服器的大量存儲空間,劍橋倉儲庫支持數據集合,使得該系釋放了本地伺服器存儲空間

競爭對手


DSpace在目前的數字倉儲軟體中佔據了三分之一以上的份額,緊隨其後的Eprints佔據約六分之一份額,還有Digital Commons、OPUS、Greenstone,以及ContentDM(由OCLC開發)、FedoraDigiTool等等,也有用戶使用WordPress來構建數字倉儲。