都柏林核心元素集
都柏林核心元素集
都柏林核心元素集(Dublin Core Element Set,以下簡稱DC)是一個致力於規範Web資源體系結構的國際性元數據解決方案,它定義了一個所有Web資源都應遵循的通用的核心標準,其內容較少,也比較通用,因此得到了其他相關標準的廣泛支持。面向其他類型資源的元數據標準,基本上都兼容DC標準,並對它作了擴展。它已經成為Internet的正式標準RFC2413和美國國家信息標準Z39.85。
1995年3月,由OCLC(Online Computer library Center,聯機計算機圖書館中心)和NCSA(National Center for Supercomputing Applications,美國國家超級計算應用中心)聯合在美國俄亥俄州的都柏林鎮召開的第一屆元數據研討會上,產生了一個精簡的元數據集——都柏林核心元素集(Dublin Core Element Set),簡稱DC。其目的是,如何用一個簡單的元數據記錄來描述種類繁多的電子信息,使非圖書館專業人員也有能夠了解和使用這種著錄格式,達到有效地描述和檢索網上資源。
標識 | 中文翻譯 | 解釋 |
Title | 題名 | 賦予資源的名稱。 |
Creator | 創建者 | 創建資源內容的主要責任者。 |
Subject | 主題 | 資源內容的主題描述。 |
Description | 描述 | 資源內容的解釋。 |
Publisher | 出版者 | 使資源成為可獲得的責任實體。 |
Contributor | 其他責任者 | 資源生存期中做出貢獻的其他實體,除製作者/創作者之外的其他撰稿人和貢獻者,如插圖繪製者、編輯等。 |
Date | 日期 | 資源生存周期中的一些事件的相關時間 |
Type | 類型 | 資源所屬的類別,包括種類、體裁、作品級別等描述性術語。 |
Format | 格式 | 資源的物理或數字錶現,可包括媒體類型或資源容量,可用於限定資源顯示或操作所需要的軟體、硬體或其他設備,容量表示數據所佔的空間大小等。 |
Identifier | 標識符 | 資源的唯一標識,如URI(統一資源標識符)、URL(統一資源定位符)、DoI(數字對象標識符)、ISBN(國際標準書號)、ISSN(國際標準刊號)等。 |
Language | 語種 | 描述資源知識內容的語種 |
Source | 來源 | 對當前資源來源的參照。 |
Relation | 關聯 | 與其他資源的索引關係,用標識系統來標引參考的相關資源。 |
Coverage | 覆蓋範圍 | 資源應用的範圍,包括空間位置(地名或地理坐標)、時代(年代、Et期或日期範圍)或許可權範圍。 |
Rights | 許可權 | 使用資源的許可權信息,它包括知識產權、著作權和各種擁有權。如果沒有此項,則表明放棄上述權力。 |
說明:通過上述15項可以看出,元數據解決方案比較全面地概括了電子資源的主要特徵,涵蓋了資源的重要檢索點(1、2、3項)、輔助檢索點或關聯檢索點(5、6、10、11、13項),以及有價值的描述性信息(4、7、8、9、12、14、15項);其次,它簡潔和規範。這15個元素不僅可以用於電子文檔,也適用於各類電子化的公務文檔,以及產品、商品、藏品目錄等,具有很高的實用性。
DC只有15個元素,通俗易懂,如題名項不分正題名、副題名還是並列題名等統稱為題名即Title;著者項也沒有細分第一責任者、其他責任者等而統一用著者即Creator加以標識,使用起來非常簡單。都柏林核心希望能夠同時為非編目人員及資源描述專家所用,且多數元素的語義都能被普遍理解,這正適應了數字圖書館信息量迅速膨脹,由專業人員進行著錄已是不可能的事實。
不針對某個特定的學科或領域,支持對任何內容的資源進行描述,這個有助於統一其他內容標準並普遍為人們所了解的描述符集合增加了跨學科的語義互操作性的可能。
著錄項目可以簡化,只要確保最低限度的7個元素(題名、出版者、形式、類型、標識符、日期和主題)就可以了。
其所有元素都可重複使用,解決了多著者與多出版等重複元素的著錄問題,對於需要詳細著錄的資料,引進了DC修飾詞。
獲得萬維網上資源發現界國際範圍的認同,對有效的發現架構之發展非常關鍵。
提供了更加精心製作的描述模型(如MARC編目)以外的經濟的選擇,既可以嵌入在HTML(RFC2731)中,也可基於XML進行描述,與當今網際網路上的相關置標語言標準有很強的親和性;允許資料以地區性規範出現,並保持元數據的一些特性,從而適應更豐富的資源標準內部的結構和更詳細描述的語義編碼。
基本的都柏林核心集過於簡單,但更多的、複雜的應用要求進一步指定元素的語義內容。元素的限定詞提供了一種指定語義內容的方法。比如,採用配置限定詞可以指定Subject元素的來源或指定一個認證系統(如ISBN或ISSN)。又比如,在Author元素標籤中使用類型(type)限定詞可以給出作者的姓名、電子郵件地址和電話號碼等。限定詞指定的方法還需要進一步完善。都柏林核心集的擴展也可以通過對局部元素的使用進行定義的方法實現。局部元素的名字應以“X-”作為開始標識,這樣Web搜索引擎能夠很容易地識別或忽略局部擴展名。
DC的限定詞主要分為三種類型:語言限定(lang),模式(scheme),類型(type)。
第一屆元數據研討會(DC-1)於1995年3月在美國俄亥俄州的都柏林召開,由OCLC/NCSA主持。本次會議的目的在於培養對當前的需求、力量、缺陷以及解決方案的一般性認識以及就建立一個描述網路資源的元數據元素核心集達成共識,目標是定義一個能為全球所理解和接受的最小的元數據元素集。本次研討會設定了一個包含13個元素的都柏林核心元素集,即都柏林核心(Dublin Core,簡稱DC),都柏林核心是在網路環境中幫助發現文件類對象所需要的最小元數據集,而對它的結構和句法問題則作為一個執行細節沒有進行詳細說明,13個文件類對象的信息檢索所需要的元數據元素為:主題(Subject)、題名(Title)、作者(Author)、出版者(Publisher)、相關責任者(OtherA—gent)、出版日期(Date)、對象類型(ObjectType)、格式(Form)、標識(Identifier)、關聯(Relation)、來源(Source)、語種(Language)、覆蓋範圍(Coverage)。
1996年4月1—3日,第二屆元數據研討會(DC-2)在英國的渥維克召開,由OCLC/UKOLN(英國圖書館和信息聯網辦公室)主持。本屆研討會最主要提出了一個建立元數據的容器結構的建議,這種容器結構可以包含都柏林核心以及其他一些不同類型的元數據,都柏林核心的13個元素則沒有改變。這次會議所產生的元數據結構之概念基礎,被稱為渥維克框架,這個框架和元內容框架成為第五屆元數據研討會上所提出的資源描述框架發展的核心。
1996年9月24—25日,第三屆元數據研討會(DC-3)在美國都柏林召開,由CNI(網路信息聯盟)/OCLC主持。會議專門圍繞在網路環境中描述圖像和圖像資料庫方面的問題展開了討論,並最終對都柏林核心的幾個元素進行了修改,以使它們不至於太以文本為中心,另外,在原來13個元素的基礎上又新增了2個元素:描述(Description)、許可權管理(Rights management)。
1997年3月3—5日,第四屆元數據研討會(DC-4)在澳大利亞首都堪培拉召開,由NLA(澳大利亞國家圖書館)/DSTC(分散式系統技術中心)/OCLC主持。會議確定了SCHEME(系統,又稱模式)、LANG(語種)和TYPE(屬性類型)三種堪培拉修飾詞,修飾詞的增加使句法問題變得更為複雜,但同時又提出兩種嵌入堪培拉修飾詞的解決方法:內容超載法和附加特徵法。
1997年10月6—8日,第五屆元數據會議(DC-5)在芬蘭的首都赫爾辛基召開,本次會議由OCLC和芬蘭國家圖書館共同組織了這次研討會,萬維網聯盟(W3C)元數據工程的代表提交了萬維網元數據新規範草案:資源描述框架(RDF),並證明此框架符合在一系列都柏林核心工作會議上提出的基本架構和編碼安排,並就有關都柏林核心的15個未限定元素進行了確定,添加額外的子元素並使其正式化,用子結構來支持模式限定詞,確立了都柏林核心正式的數據模型。
1998年11月2—4日,第六屆都柏林核心元數據研討會(DC-6)在美國的華盛頓特區召開,由LC(美國國會圖書館)/OCLC共同主持。本次會議提出應用RDF數據模型建立都柏林核心數據模型,認為RDF中有足夠的完整性來支持都柏林核心建模的目標,並為都柏林核心的應用定義了實施框架。
1999年10月25—27日,第七屆元數據會議(DC-7)在德國的法蘭克福召開,由DDB(德國圖書館)/OCLC主持。目的是鞏固每個DC工作組的發展、分享應用DC的經驗,以及提高DC在不同元數據系統中的互操作性,並於1999年12月22日形成了DC修飾詞1.0工作草案(DC修飾詞是對15個元素的語義進行限定和修飾的詞,修飾詞的語義包含於未修飾詞中,範圍上對未修飾詞的語義進行限定,在深度上對未修飾詞的語義進行延伸),會議還首次對應用DC進行網路資源揭示的幾個項目作了介紹。
2000年10月4—6日,第八屆元數據會議(DC-8)在加拿大的渥太華召開,由NLC(加拿大國家圖書館)主持。會上DCMI(Dublin Core Metadata Initiative,DCMI)負責人Stuart Weibel總結了DCMI在2000年在DC修飾詞、DC標準化、DC作為元數據的語法、教育界的DC、DC登記、應用屬性等方面工作的進展情況,並對元數據的結構問題(如何利用子結構更好地容納元數據)、應用屬性、都柏林核心註冊(開放式元數據註冊系統)、特殊領域的元數據(教育界、政府部門、研究界等都柏林核心)作為重點議題進行了研究。
經過多年的研究發展,DC已能較好地解決網路資源的發現、控制和管理問題,並對當今數字圖書館的研究也很有意義。因此,世界上研究及採納DC的各種項目已遍及美洲、歐洲、大洋洲、亞洲等地,涉及社會學、政治、圖書館、教育、商業、科學研究等多個領域,DC已被翻譯成了泰、日、德、法、葡、丹麥、挪威、芬蘭、瑞典等國家的幾十種語言。芬蘭、丹麥已選用DC作為官方電子資源的描述方式.1998年9月,網際網路工程任務組(IETF)也正式接受了DC這一網路資源的描述方式,將其作為一個正式標準予以發布( RFC2413)。
儘管都柏林核心集簡便易學,而且它的使用在提高檢索準確率方面效果明顯。但是,它的利用情況卻並不能令滿意。據"Web Developer Magazine"統計,網際網路上使用了一個都柏林核心集元素( < Title> )的網頁,只佔21%;國內的網頁中使用3 個元數據(Title、Description 和Subject) 的站點只佔10%。