元數據描述
元數據描述
元數據的描述, 就是對元數據的表述與揭示。對於元數據可以從不同角度加以研究, 但是從語言學角度來看, 元數據就是一種語言, 且是一種人工語言,存在著從語義方面和語法兩方面對元數據進行表述與揭示的問題。
元數據既然是一種語言,就存在著語義與語法這兩個基本方面。由此,元數據也就存在著從語義方面和語法方面對元數據進行表述與揭示的問題。
自然語言語義三角模型
從圖看出,語義處于思維層面,而語法存在於表達層面,但不管怎樣,都是人們用於說明、描述、指代事物所不可缺少的兩個基本方面。
由於元數據是一種人工語言,而且是以計算機網路為應用環境,因此,在語義與語法的界定上又與自然語言語義、語法的界定有所不同。元數據語義是指人們對其可以直接讀取的內容涵義部分;而語法則是指計算機對其可以直接讀取的置標結構部分,其模型見圖。
元數據描述
語言的功能在於交流。雖然從形式上看,元數據的語義與語法與自然語言的語義與語法劃分有所不同,但其實質是一樣的,都是為了實現交流。只不過自然語言的語義與語法這種劃分適用於人們交流的現實世界,而元數據的語義與語法的劃分適用於人們在計算機網路環境下交流的虛擬世界。
簡單地說,元數據就是關於數據的數據。當然,這並不是對元數據的精確定義,目前對元數據的定義尚無定論。但是,我們可以這樣理解元數據:它是用來描述數字化信息資源,從而確保這些數字化信息資源能夠被計算機理解,使得計算機可以自動辨析、分解、提取和分析歸納的一種框架或一套編碼體系。就元數據的功能而言,在信息資源組織中,它具有定位、描述、搜索、評估和選擇等功能,而其最基本的功能在於為信息對象提供描述信息。目前元數據的發展,呈多元化的格局,大致可以分為兩大類:一是以詳細描述信息資源為目標的元數據;二是以檢索信息資源為目標的元數據。
這類元數據在滿足檢索、選擇和定位信息資源的同時,對信息資源的各類特徵及關係進行儘可能詳細的描述,其對象常與專業化技術應用有關,面向專業人員,其主要代表有:
1 數字化地理元數據內容規範
在這類元數據中,最成熟和最完善的元數據格式,首推數字化地理元數據內容規範(FGDC/CSDGM)。FGDC是根據1994年美國總統行政命令制定的一項關於地理資料收藏、著錄和交換的元數據標準,目的是整合所有聯邦機構及其他機構對地理信息的描述和交換,同時也用於統一政府和民間地理信息的分佈與傳播。
FGDC地理元數據,是基於NII的國家空間數據基礎建設(NationalDateInfrastructure,NSDI)設計的,在信息的交換、傳遞、分佈和檢索上,是以一個連結地球信息的生產者、使用者和管理者的分散式電子網路為操作環境的。為了保證元數據的質量和描述信息語言的語法正確,在網路上已設有元數據語法查核器及描述信息的指導軟體,引導用戶正確地描述自己的信息。總之,FGDC地理元數據已經成為美國的國家標準,被地理界廣泛採用。
2 政府信息查找服務核心元素標
准資源查找系統(GILS)是於1992年由聯邦政府所推出的,也是一種協調各機構信息傳播,幫助人們有效地檢索和利用聯邦機構的各項信息的工具。該系統設計特色是:①使用者可以直接利用網路或者通過中介機構來使用GlLS。②採用分散式結構,允許各機構自行建立和維護本身的GILS系統,各機構的GILS系統之間互相獨立。
目前,GILS已成為美國國家信息基礎設施建設(NII)的一個組成部分。美國聯邦政府、州政府和其他機構也設立GILS。GILS政府信息查找服務核心元素標準是用來協助人們建立GILS,規範信息內容的描述,保證GILS記錄的質量。
這類元數據強調檢索功能,分析信息資源的檢索特徵,主要解決用戶的檢索問題,使用戶能真正檢索到其所需要的信息資源,其中最具代表性的元數據格式為統一資源描述(URC)。
URC是由InternetEngneeringResourseCharacteristics,(IETF)提出的,用於描述和檢索網路信息資源的格式,它包括位置獨立文件名稱、作者、時間、描述、許可權等。其中,統一資源名稱URN)是一種為網路化信息實體分配的永久的、唯一的、且獨立於物理位置的識別符,類似於出版界的ISBN;統一資源地址(URL)是網路信息資源的電子地址,URC是用來連接URL和URN的。
URC為網路信息資源的檢索、定位提供基本信息,但並不是全面詳細地描述信息資源,其描述相當粗略。最終目的是建立一個可向URC伺服器提出檢索要求,並且可獲得相應的URN或班讓或URC的分散式目錄體系。
XML是繼HTML之後的又一種WEB標記語言,它為用戶提供了靈活的標記擴展機制,使得不同內容的資源能以格式良好的自定義的標記元素來表現。元數據是描述信息資源或數據等對象的數據,主要用來識別、評價、追蹤資源,以及方便對資源的管理、發現、查找和交換。隨著計算機網路的發展,特別是Internet的普及,網路環境下信息的描述和處理成為一個重要的問題,相應地網路環境下的元數據問題也成為一個研究的熱點。DTD和XML Schema是XML中常用的進行標記擴展的工具,RDF是專用的元數據描述工具,網路環境下的元數據描述通常就是藉助這幾個工具,利用XML的標記可擴展性來完成。在這三個工具中,DTD隨著XML1.0最早被提出,伴隨著XML應用的普及和人們對DTD認識的加深,又進一步提出了RDF和更有發展潛力的XML Schema。
DTD作為XML1.0規範的重要組成部分,它使用EBNF(ExtendedBackusNaur Form)語法完成XML文檔結構的定義,即XML文檔中標記的定義。一個XML文檔只能對應一個DTD,一個DTD由一系列標記定義組成,包括元素定義(elementde claration)、屬性定義(attribatede claration)、實體定義(entityde claration)、註釋定義(notationde claration),是目前支持和應用最廣泛的一種標記擴展工具。
我們可以看到DTD較好地完成了XML的標記擴展(即元數據描述)的任務,目前在Internet上已有大量使用DTD描述的元數據存在。但是DTD提出較早,人們在使用過程中也發現它有很多的不足之處。其主要特點如下:
①難以理解和書寫。由於採用的是不同於XML的名為EBNF的語法,因為需要先了解EBNF,這對於人們的閱讀和書寫都帶來了困難。
②難以使用程序進行元數據的自動處理。由於使用EBNF語法,這給DTD的自動處理也帶來了麻煩。通常情況下,我們需要對DTD進行驗證,這時使用DOM就不可能對使用EBNF語法書寫的DTD進行分析,而必須使用專門的分析程序進行分析驗證。
③DTD不支持數據類型。DTD只支持包括文檔類型在內的少數幾種數據類型,這意味著在實際使用過程中經常需要進行類型的轉換才能達到預想的效果。
④DTD不支持Namespaces。由於必須把所有的元數據放在一個DTD文件中,如果需要對已有的DTD進行擴充則只能在原文件的基礎上進行重寫,這對於元數據的維護和擴充都十分不方便。
總之,DTD在簡單的文檔結構定義方面是較出色的,如果考慮到XML,是源自同樣使用DTD的SGML的話,理解在XML1.0中選擇了DTD就不難了。但如果我們考慮到XML的用途現在已不僅局限於文檔處理,那麼DTD的這些缺點就變得日趨嚴重。因此W3C(WorldWideWebConsortium)在看到了DTD的諸多問題之後,提出了一系列用來代替DTD的建議(Recommendation,即正式標準),包括RDF、XML-Data、DCD、XMLSchema等,其中以RDF和XMLSchema的影響較大。
RDF是W3C在1999年2月頒布的一個關於元數據的建議,它主要解決如何採用XML標準語法無二義性地描述資源對象的問題,使得所描述資源的元數據信息成為機器可理解的信息。RDF不僅可以象DTD一樣允許設計者定義對象,並可以加入屬性以對對象進行描述和定義,還可以作出有關對象的複雜的陳述,例如申明資源之間的關係等。
RDF的基本對象類型有:資源(Resources)、屬性(Properties)、陳述(Statements)。每一個資源都有屬性,每個資源通過唯一資源標識符URI來標識,它的屬性由屬性類型來作標識,每一個屬性類型都有對應的屬性值。屬性類型表示出這些屬性值與資源之間的關係。在RDF中,屬性值要麼是一些被認為具有原子性的事物(如字元串或數字元),要麼是其他的資源,而這些資源本身又擁有自身的屬性。所有指向同一資源的陳述的集合就是描述。
RDF建議克服了DTD的主要缺點,具有以下幾個優點:
①易控制性。由於RDF使用簡單的資源——屬性——值三元組,所以很容易控制,即使是數量很大的時候。
②包容性。在RDF這種元數據模型中既可以定義自己的辭彙集,也可以嵌入DC元數據或別的類型的元數據。
③可交換性。由於XML是目前最具發展前景的標記語言,使用XML作為描述語法的RDF在未來也就可以成為一種可以攜帶多種元數據來往於網路上的框架工具。
④易綜合性。在RDF中資源的屬性是資源,屬性值以及關於資源的陳述也可以是資源,都可以用RDF進行描述,這樣可以很容易地將多個描述綜合,以達到發現知識的目的。
總之,RDF是一個公認的極佳的強有力的元數據描述工具,這也部分地實現了它結束在元數據描述領域一切努力的雄心。但是,RDF的這種強有力也導致了它嚴重的缺陷,就是在一些日常應用中顯得太複雜了,設計者不僅需要定義對象和屬性,而且需要定義複雜的陳述。一個複雜的標準是很難在短時間內被廣大網路應用開發人員接受、掌握和應用的,因此這個複雜的標準也就很難在網路上推廣和被接受。就象複雜的SGML很少有人使用,而對其進行簡化后形成的XML則迅速被接受一樣,RDF在網路上尤其是Internet上是很難有市場的,而只會在一些特定的領域得到應用。Internet上的元數據描述需要的應該是一種簡單而且可靠的解決方案。
Schema是一種描述信息結構的模型,它是借用資料庫中一種描述相關表格內容的機制,為一類文件建立一個模式。從這一層意義上講,DTD實際上也是一種Schema,只不過這種Schema使用了古怪的EBNF語法,因而帶來了諸多的不便。RDFSchema可能是由於RDF的原因,W3C最終只推出了RDFSchema的草案,一直未能更進一步推出正式的建議(即標準)。XMLSchema是2001年5月由W3C推薦的用於描述XML文件結構的一個框架,它的語法與XML相同,但Schema文件所描述的是引用它的XML文件中的元素和屬性的具體類型。
XMLSchema本身就是一個XML文件,但不同的是,Schema文件所描述的是引用它的XML文件中的元素和屬性的具體類型。相比DTD,XMLSchema具有以下優點:
①一致性。Schema使得對XML的定義不必再利用一種特定的形式化的語言,而是直接藉助XML自身的特性,利用XML的基本語法規則來定義XML文檔的結構,使得XML達到了從內到外的完美統一,也為XML的進一步發展奠定了堅實的基礎。
②擴展性。Schema對DTD進行了擴充,引入了數據類型、命名空間,從而使其具備較強的可擴展性。
③互換性。利用Schema,我們能夠書寫XML文檔以及驗證文檔的合法性。另外,通過特定的映射機制,還可以將不同的Schema進行轉換,以實現更高層次的數據交換。
④規範性。同DTD一樣,XMLSchema也提供了一套完整的機制以約束XML文檔中置標的使用,但相比之下,後者基於XML,更具有規範性。Schema利用元素的內容和屬性來定義XML文檔的整體結構,如哪些元素可以出現在文檔中、元素間的關係是什麼、每個元素有哪些內容和屬性、以及元素出現的順序和次數等等,都可一目了然。