元數據

描述數據的數據

元數據(Metadata),又稱中介數據、中繼數據,為描述數據的數據(data about data),主要是描述數據屬性(property)的信息,用來支持指示存儲位置、歷史數據、資源查找、文件記錄等功能。元數據算是一種電子式目錄,為了達到編製目錄的目的,必須在描述並收藏數據的內容或特色,進而達成協助數據檢索的目的。都柏林核心集區Dublin Core Metadata Initiative,DCMI)是元數據的一種應用,是1995年2月由國際圖書館電腦中心(OCLC)和美國國家超級計算應用中心(National Center for Supercomputing Applications,NCSA)所聯合贊助的研討會,在邀請52位來自圖書館員、電腦專家,共同制定規格,創建一套描述網路上電子文件之特徵。

元數據是關於數據的組織、數據域及其關係的信息,簡言之,元數據就是關於數據的數據。

定義


元數據被定義為:描述數據的數據,對數據及信息資源的描述性信息。
元數據(Metadata)是描述其它數據的數據(data about other data),或者說是用於提供某種資源的有關信息的結構數據(structured data)。元數據是描述信息資源或數據等對象的數據,其使用目的在於:識別資源;評價資源;追蹤資源在使用過程中的變化;實現簡單高效地管理大量網路化數據;實現信息資源的有效發現、查找、一體化組織和對使用資源的有效管理。元數據的基本特點主要有:
a)元數據一經建立,便可共享。元數據的結構和完整性依賴於信息資源的價值和使用環境;元數據的開發與利用環境往往是一個變化的分散式環境;任何一種格式都不可能完全滿足不同團體的不同需要;
b)元數據首先是一種編碼體系。元數據是用來描述數字化信息資源,特別是網路信息資源的編碼體系,這導致了元數據和傳統數據編碼體系的根本區別;元數據的最為重要的特徵和功能是為數字化信息資源建立一種機器可理解框架。
元數據體系構建了電子政務的邏輯框架和基本模型,從而決定了電子政務的功能特徵、運行模式和系統運行的總體性能。電子政務的運作都基於元數據來實現。其主要作用有:描述功能、整合功能、控制功能和代理功能。
由於元數據也是數據,因此可以用類似數據的方法在資料庫中進行存儲和獲取。如果提供數據元的組織同時提供描述數據元的元數據,將會使數據元的使用變得準確而高效。用戶在使用數據時可以首先查看其元數據以便能夠獲取自己所需的信息。
數據倉庫
在數據倉庫領域中,元數據按用途分成技術元數據和業務元數據。首先,元數據能提供基於用戶的信息,如記錄數據項的業務描述信息的元數據能幫助用戶使用數據。其次,元數據能支持系統對數據的管理和維護,如關於數據項存儲方法的元數據能支持系統以最有效的方式訪問數據。具體來說,在數據倉庫系統中,元數據機制主要支持以下五類系統管理功能:
(1)描述哪些數據在數據倉庫中;
(2)定義要進入數據倉庫中的數據和從數據倉庫中產生的數據;
(3)記錄根據業務事件發生而隨之進行的數據抽取工作時間安排;
(4)記錄並檢測系統數據一致性的要求和執行情況;
(5)衡量數據質量。
軟體構造
軟體構造領域的定義在軟體構造領域,元數據被定義為:在程序中不是被加工的對象,而是通過其值的改變來改變程序的行為的數據。它在運行過程中起著以解釋方式控制程序行為的作用。在程序的不同位置配置不同值的元數據,就可以得到與原來等價的程序行為。
圖書信息
在圖書館與信息界,元數據被定義為:提供關於信息資源或數據的一種結構化的數據,是對信息資源的結構化的描述。其作用為:描述信息資源或數據本身的特徵和屬性,規定數字化信息的組織,具有定位、發現、證明、評估、選擇等功能。
一般認為,所謂元數據是關於數據的數據,或關於數據的結構化的數據。從已有的結論看,元數據的含義是逐漸發展的。元數據一詞,早期主要指網路資源的描述數據,用於網路信息資源的組織;其後,逐步擴大到各種以電子形式存在的信息資源的描述數據。元數據這一術語實際用於各種類型信息資源的描述記錄。
此外,元數據在地理界,生命科學界等領域也有其相應的定義和應用。

特點


①元數據是關於數據的結構化的數據,它不一定是數字形式的,可來自不同的資源。
②元數據是與對象相關的數據,此數據使其潛在的用戶不必先具備對這些對象的存在和特徵的完整認識。
③元數據是對信息包裹(Information Package)的編碼的描述。
④元數據包含用於描述信息對象的內容和位置的數據元素集,促進了網路環境中信息對象的發現和檢索。
⑤元數據不僅對信息對象進行描述,還能夠描述資源的使用環境、管理、加工、保存和使用等方面的情況。
⑥在信息對象或系統的生命周期中自然增加元數據。
⑦元數據常規定義中的“數據”是表示事務性質的符號,是進行各種統計、計算、科學研究、技術設計所依據的數值,或是說數字化、公式化、代碼化、圖表化的信息。
優點
對於一種更簡單的編程模型來說,元數據是關鍵,該模型不再需要介面定義語言(IDL)文件、頭文件或任何外部組件引用方法。元數據允許.NET語言自動以非特定語言的方式對其自身進行描述,而這是開發人員和用戶都無法看見的。另外,通過使用屬性,可以對元數據進行擴展。元數據具有以下主要優點:
自描述
公共語言運行庫模塊和程序集是自動描述的。模塊的元數據包含與另一個模塊進行交互所需的全部信息。元數據自動提供COM中IDL的功能,允許將一個文件同時用於定義和實現。運行庫模塊和程序集甚至不需要向操作系統註冊。結果,運行庫使用的說明始終反映編譯文件中的實際代碼,從而提高應用程序的可靠性。
設計
元數據提供所有必需的有關已編譯代碼的信息,以供您從用不同語言編寫的PE文件中繼承類。您可以創建用任何託管語言(任何面向公共語言運行庫的語言)編寫的任何類的實例,而不用擔心顯式封送處理或使用自定義的互用代碼。

屬性


.NET Framework允許您在編譯文件中聲明特定種類的元數據(稱為屬性)。在整個.NET Framework到處都可以發現屬性的存在,屬性用於更精確地控制運行時您的程序如何工作。另外,您可以通過用戶定義的自定義屬性向 .NET Framework文件發出您自己的自定義元數據。有關更多信息,請參見利用屬性擴展元數據。

意義


說到元數據的意義,可以從其應用目的來談的。雖然做數據倉庫言必稱元數據,必稱技術、業務元數據,但其到底用於何處?離開了目標去談元數據,就發現元數據包含太多的東西,因為他是描述數據的數據嘛。
還是拿客戶關係系統來比喻,這個系統維護客戶信息當然是有目的的,是要用這些信息進行一些自動的流程處理、去挖掘一些客戶潛在的價值、做好客戶服務。當然沒有必要去維護客戶的生命特徵信息,諸如指紋、犯罪史等,這些信息跟客戶關係管理的目標關係不大。元數據也是如此,你可以將所有數據的結構、大小、什麼時間創建、什麼時間消亡、被那些人使用等等,這些信息可以延伸得太廣,如果不管目標,而試圖去建一個非常完美的元數據管理體系,這是一種絕對的"自上而下"做法,必敗無疑。

列舉


基於應用,可以將元數據分成以下的若干種。
數據結構:數據集的名稱、關係、欄位、約束等;
數據部署:數據集的物理位置;
數據流:數據集之間的流程依賴關係(非參照依賴),包括數據集到另一個數據集的規則;
質量度量:數據集上可以計算的度量;
度量邏輯關係:數據集度量之間的邏輯運算關係;
ETL過程:過程運行的順序,并行、串列;
數據集快照:一個時間點上,數據在所有數據集上的分佈情況;
星型模式元數據:事實表、維度、屬性、層次等;
報表語義層:報表指標的規則、過濾條件物理名稱和業務名稱的對應;
數據訪問日誌:哪些數據何時被何人訪問;
質量稽核日誌:何時、何度量被稽核,其結果;
數據裝載日誌:哪些數據何時被何人裝載;

標準


1、數字圖書館資源組織框架
2.元數據開發應用框架
元數據的基本意義 Metadata(元數據)是“關於數據的數據”;
元數據為各種形態的數字化信息單元和資源集合提供規範、普遍的描述方法和檢索工具;
元數據為分佈的、由多種數字化資源有機構成的信息體系(如數字圖書館)提供整合的工具與紐帶。
離開元數據的數字圖書館將是一盤散沙,將無法提供有效的檢索和處理。
3.元數據應用環境
3.1 Metadata的應用目的
(1)確認和檢索(Discovery andentification),主要致力於如何幫助人們檢索和確認所需要的資源,數據元素往往限於作者、標題、主題、位置等簡單信息,Dublin Core是其典型代表。
(2)著錄描述(Cataloging),用於對數據單元進行詳細、全面的著錄描述,數據元素囊括內容、載體、位置與獲取方式、製作與利用方法、甚至相關數據單元方面等,數據元素數量往往較多,MARC、GILS和FGDC/CSDGM是這類Metadata的典型代表。
(3)資源管理(Resource Administration),支持資源的存儲和使用管理,數據元素除比較全面的著錄描述信息外,還往往包括權利管理(Rights/Privacy Management)、電子簽名(Digital Signature)、資源評鑒(Seal of Approval/Rating)、使用管理(Access Management)、支付審計(Payment and Accounting)等方面的信息。
(4)資源保護與長期保存(Preservation and Archiving),支持對資源進行長期保存,數據元素除對資源進行描述和確認外,往往包括詳細的格式信息、製作信息、保護條件、轉換方式(Migration Methods)、保存責任等內容。
3.2 Metadata在不同領域的應用根據不同領域的數據特點和應用需要,90年代以來,許多Metadata格式在各個不同領域出現
例如:
網路資源:Dublin Core、IAFA Template、CDF、Web Collections
文獻資料:MARC(with 856 Field),Dublic Core
人文科學:TEI Header
社會科學數據集:ICPSR SGML Codebook
博物館與藝術作品:CIMI、CDWA、RLG REACH Element Set、VRA Core
政府信息:GILS
地理空間信息:FGDC/CSDGM
數字圖像:MOA2 metadata、CDL metadata、Open Archives Format、VRA Core、NISO/CLIR/RLG Technical Metadata for Images
檔案庫與資源集合:EAD
技術報告:RFC 1807
連續圖像:MPEG-7
3.3 Metadata格式的應用程度
不同領域的Metadata處於不同的標準化階段:
在網路資源描述方面,Dublin Core經過多年國際性努力,已經成為一個廣為接受和應用的事實標準;
在政府信息方面,由於美國政府大力推動和有關法律、標準的實行,GILS已經成為政府信息描述標準,並在世界若干國家得到相當程度的應用,與此類似的還有地理空間信息處理的FGDC/CSDGM;
但在某些領域,由於技術的迅速發展變化,仍然存在多個方案競爭,典型的是數字圖像的Metadata,提出的許多標準都處於實驗和完善的階段。
3.4 Metadata格式“標準化”程度問題
Metadata開發應用經驗表明,很難有一個統一的Metadata格式來滿足所有領域的數據描述需要;即使在同一個領域,也可能為了不同目的而需要不同的但可相互轉換的Metadata格式。
同時,統一的集中計劃式的Metadata格式標準也不適合Internet環境,不利於充分利用市場機制和各方面力量。
但在同一領域,應爭取“標準化”,在不同領域,應妥善解決不同格式的互操作問題。
4.元數據結構
4.1總體結構定義方式一個Metadata格式由多層次的結構予以定義:
(1)內容結構(Content Structure),對該Metadata的構成元素及其定義標準進行描述。
(2)句法結構(Syntax Structure),定義Metadata結構以及如何描述這種結構。
(3)語義結構(Semantic Structure),定義Metadata元素的具體描述方法。
4.2內容結構
內容結構定義Metadata的構成元素,可包括:描述性元素、技術性元素、管理性元素、結構性元素(例如與編碼語言、Namespace、數據單元等的鏈接)。
這些數據元素很可能依據一定標準來選取,因此元數據內容結構中需要對此進行說明,例如MARC記錄所依據的ISBD,EAD所參照的ISAD(G),ICPSR所依據的ICPSR Data Preparation Manual。
4.3句法結構
句法結構定義格式結構及其描述方式,例如元素的分區分段組織、元素選取使用規則、元素描述方法(例如Dublin Core採用ISO/IEC 11179標準)、元素結構描述方法(例如MARC記錄結構、SGML結構、XML結構)、結構語句描述語言(例如EBNF Notation)等。
有時,句法結構需要指出元數據是否與所描述的數據對象捆綁在一起、或作為單獨數據存在但以一定形式與數據對象鏈接,還可能描述與定義標準、DTD結構和Namespace等的鏈接方式。
4.4語義結構語義結構定義元素的具體描述方法,例如描述元素時所採用的標準、最佳實踐(Best Practices)或自定義的描述要求(Instructions)。
有些元數據格式本身定義了語義結構,而另外一些則由具體採用單位規定語義結構,例如Dublin Core建議日期元素採用ISO 8601、資源類型採用Dublin Core Types、數據格式可採用MIME、識別號採用URL或DOI或ISBN;
又如OhioLink在使用VRA Core時要求主題元素使用A&AT、TGM和TGN,人名元素用ULAN。
5.元數據編碼語言與製作方式
5.1元數據編碼語言
元數據編碼語言(Metadata Encoding Languages)指對元數據元素和結構進行定義和描述的具體語法和語義規則,常稱為定義描述語言(DDL)。
在元數據發展初期人們常使用自定義的記錄語言(例如MARC)或資料庫記錄結構(如ROADS等),但隨著元數據格式的增多和互操作的要求,人們開始採用一些標準化的DDL來描述元數據,例如SGML和XML,其中以XML最有潛力。
5.2元數據製作方式
(1)專門編製模塊(例如對MARC、GILS、FGDC等)
(2)數據處理時自動編製(例如對Dublin Core等)
(3)數據物理處理時自動編製(例如數字圖像掃描時的某些元數據參數)
(4)共享元數據(例如OCLC/CORC、IMESH
6.元數據互操作性
6.1元數據互操作性問題
由於不同的領域(甚至同一領域)往往存在多個元數據格式,當在用不同元數據格式描述的資源體系之間進行檢索、資源描述和資源利用時,就存在元數據的互操作性問題(Interoperability):
多個不同元數據格式的釋讀、轉換和由多個元數據格式描述的數字化信息資源體系之間的透明檢索。
6.2元數據格式映射
利用特定轉換程序對不同元數據元格式進行轉換,稱為元數據映射(Metadata Mapping/Crosswalking)。
已有大量的轉換程序存在,供若干流行元數據格式之間的轉化,例如
Dublin Core與USMARC; Dublin Core與EAD
Dublin Core與GILS;GILS與MARC TEI
Header與MARC FGDC與MARC
也可利用一種中介格式對同一格式框架下的多種元數據格式進行轉換,例如UNIverse項目利用GRS格式進行各種MARC格式和其它記錄格式的轉換。格式映射轉換準確、轉換效率較高。不過,這種方法在面對多種元數據格式並存的開放式環境中的應用效率明顯受到限制。
6.3標準描述框架
解決元數據互操作性的另一種思路是建立一個標準的資源描述框架,用這個框架來描述所有元數據格式,那麼只要一個系統能夠解析這個標準描述框架,就能解讀相應的Metadata格式.實際上,XML和RDF從不同角度起著類似的作用。
XML通過其標準的DTD定義方式,允許所有能夠解讀XML語句的系統辨識用XML_DTD定義的Metadata格式,從而解決對不同格式的釋讀問題。
RDF定義了由Resources、Properties和Statements等三種對象組成的基本模型,其中Resources和Properties關係類似於E-R模型,而Statements則對該關係進行具體描述。
RDF通過這個抽象的數據模型為定義和使用元數據建立一個框架,元數據元素可看成其描述的資源的屬性。
進一步地,RDF定義了標準Schema,規定了聲明資源類型、聲明相關屬性及其語義的機制,以及定義屬性與其它資源間關係的方法。另外,RDF還規定了利用XML Namespace方法調用已有定義規範的機制。
6.4數字對象方式
建立包含元數據及其轉換機制的數字對象可能從另一個角度解決元數據互操作性問題。
Cornell/FEDORA項目提出由內核(Structural Kernel)和功能傳播層(Disseminator Layer)組成的複合數字對象。
內核里,可以容納以比特流形式存在的文獻內容、描述該文獻的元數據、以及對這個文獻及元數據進行存取控制的有關數據。
功能傳播層,主功能傳播器(PrimitiveDisseminator)支持有關解構內核數據類型和對內核數據讀取的服務功能,還可有內容類型傳播器(Content-Type Disseminators),它們可內嵌元數據格式轉換機制。
例如,在一個數字對象的內核中存有MARC格式的元數據,在功能傳播層裝載有請求Dublin Core格式及其轉換服務的內容類型傳播器。當數字對象使用者要求讀取以Dublin Core表示的元數據時,相應的內容類型傳播器將通過網路請求存儲有Dublin Core及其轉換服務程序的數字對象,然後將被請求數字對象中的MARC形式元數據轉換為Dublin Core形式,在輸出給用戶。
7.幾點建議
跟蹤元數據發展、積極參與制定元數據標準、加快元數據應用、注意國際接軌。
加快研究有效利用元數據進行檢索(包括異構系統透明檢索)、相關性學習、個性化處理等的機制。
加快研究元數據與數字對象和數字化資源體系有機整合的途徑與方法。
推進研究利用元數據進行基於知識的數據組織和知識發現。

管理


初期的元數據管理通常是在事後由相應的元數據管理軟體,從已開發完成的應用系統中抽取用戶所關注的各類元數據,再由人工補錄一些註釋和管理用的屬性。這種模式稱之為基本元數據管理,由於存在元數據獲取的不及時,存在為了減少工作量有些屬性空缺的風險,存在對應用體驗支持力度的不足,實際應用並不普遍。在新一代應用系統(AS2.0)中,業務功能通常都是由相應的構件,以人機交互的形式,通過在人工業務語境的對話過程中組裝實現的。這個過程中,不僅完成了業務應用所需要的應用軟體元素,同時也完成了應用軟體元素相對應的元數據的採集。這種模式稱之為主主動數據理。以下是元數據管理的主要功能,后2部分屬於主動元數據管理的內容。
基本管理
元模型管理。利用可視化的用戶體驗,實現包括元模型添加、刪除、修改、發布等維護功能;並且能讓用戶直觀地了解已有元模型的分類、統計、使用情況、變更追溯,以及每個元模型的生命周期管理等等。
元數據管理。元數據管理實現針對元數據的基本管理功能。如元數據的添加、刪除、修改屬性等維護功能;元數據之間關係的建立、刪除和跟蹤等關係維護功能;提供元數據發布流程管理,可以更好地管理和跟蹤元數據的整個生命周期;元數據自身質量核查、元數據查詢、元數據統計、元數據使用情況分析、元數據變更、元數據版本和生命周期管理等功能。
元數據分析。元數據分析功能主要實現針對元數據的基本分析功能。包括血緣分析(血統分析)、影響分析、實體關聯分析、實體影響分析、主機拓撲分析、指標一致性分析等。
捕獲
為各類應用軟體元素提供元數據支撐,在相應的工具軟體以最佳用戶體驗的人機交互模式,按照嚴格的邏輯步驟,統一、順序地定義數據項、定義表單、定義ETL和加工規則、定義物理表、定義多維模型、定義展現和結果數據集等等應用軟體元素的同時,元數據捕獲功能的元數據採集介面,及時地將相應的元數據收集進入元數據管理平台。替代了基本元數據管理需要在事後抽取元數據的作法,而在應用軟體元素生成的同時,就載入並形成了與其相關的各種元數據。
服務
各類應用軟體元素產生的元數據進入元數據平台後,元數據管理可通過元數據服務功能,為需要這些元數據的工具軟體或構件提供元數據服務。如將前面所述的各種工具軟體的定義結果,以相應的標準協議進行打包形成方案(應用腳本),提供給其它應用環境中的物理表建立工具、ETL工具、多維模型建立工具、結果展現工具等底層工具,從而實現應用的重用和共享。同時,元數據服務還可為業務應用功能提供輔助的元數據幫助信息,如業務功能中加工結果和指標的說明、提示,及其血緣分析等,讓用戶可明確、直觀地了解數據的來源、加工過程及加工演演算法等信息。