數據整合

提供統一數據視圖的集成方式

數據整合是把在不同數據源的數據收集、整理、清洗,轉換后(有點像ETL)載入到一個新的數據源,為數據消費者提供統一數據視圖的數據集成方式。

基本概念


數據整合是共享或者合併來自於兩個或者更多應用的數據,創建一個具有更多功能的企業應用的過程。傳統的商業應用有很強的面向對象性——即他們依靠持續的數據結構為商業實體和過程建模。當這種情況發生時,邏輯方式是通過數據共享或合併進行整合,而其他情況下,來自於一個應用的數據可能是重新構造才能和另一個應用的數據結構匹配,然後被直接寫進另一個資料庫。

數據整合工具


目前比較成熟穩定的產品有:Kettle、Informatica、Datastage、ODI ,OWB、微軟DTS、HaoheDI、Teradata
如何選擇數據整合工具?一般來說需要考慮以下幾個方面:
(1)對平台的支持程度。
(2)對數據源的支持程度。
(3)抽取和裝載的性能是不是較高,且對業務系統的性能影響大不大,傾入性高不高。
(4)數據轉換和加工的功能強不強。
(5)是否具有管理和調度功能。
(6)是否具有良好的集成性和開放性

數據整合的必要性


1、數據和信息系統分散

我國信息化經過多年的發展,已開發了眾多計算機信息系統和資料庫系統,並積累了大量的基礎數據。然而,豐富的數據資源由於建設時期不同,開發部門不同、使用設備不同、技術發展階段不同和能力水平的不同等,數據存儲管理極為分散,造成了過量的數據冗餘和數據不一致性,使得數據資源難於查詢訪問,管理層無法獲得有效的決策數據支持。往往管理者要了解所管轄不同部門的信息,需要進入眾多不同的系統,而且數據不能直接比較分析。

2、信息資源利用程度較低

一些信息系統集成度低、互聯性差、信息管理分散,數據的完整性、準確性、及時性等方面存在較大差距。有些單位已經建立了內部網和網際網路,但多年來分散開發或引進的信息系統,對於大量的數據不能提供一個統一的數據介面,不能採用一種通用的標準和規範,無法獲得共享通用的數據源,於是不同的應用系統之間必然會形成彼此隔離的信息孤島。缺乏共享的、網路化的可用度高的信息資源體系。

3、支持管理決策能力較低

同時,隨著計算機業務數量的增加,管理人員的操作也越來越多,越來越複雜,許多日趨複雜的中間業務處理環節依然或多或少地依靠手工處理進行流轉;信息加工分析手段差,無法直接從各級各類業務信息系統採集數據並加以綜合利用,無法對外部信息進行及時、準確的收集反饋,業務系統產生的大量數據無法提煉升華為有用的信息,並及時提供給管理決策部門;已有的業務信息系統平台及開發工具互不兼容,無法在大範圍內應用等。
數據的共享度達不到單位對信息資源的整體開發利用的要求。簡單的應用多,交叉重複也多,能支持管理和決策的應用少,能利用網路開展經營活動的應用更少。數據中蘊藏著巨大信息資源,但是沒有通過有效工具充分挖掘利用,信息資源的增值作用還沒有在管理決策過程中充分發揮。

數據整合的優點


1.底層數據結構的透明:為數據訪問(消費應用)提供了統一的介面,消費應用無需知道:數據在哪裡保存、源資料庫支持那種方式的訪問(XQuery,SQL)、數據的物理結構、網路協議等。
2.性能和擴展性:數據整合把數據集成和數據訪問分成了兩個過程,因此訪問時數據已經處於準備好的狀態。
3.提供真正的單一數據視圖,數據視圖data view這個概念大家很容易理解,數據整合的優勢是經過了數據校驗和數據清理,你看到的數據更加真實、準確、可靠。
4.可重用性好:由於有了實際的物理存儲,數據可以為各種應用提供可重用的數據視圖,而不用擔心底層實際的數據源的可用性。
5.數據管控能力加強:管控是SOA裡面重要的概念。數據整合的優勢是數據規則可以在數據載入,轉換中實施,保證了數據管控。

數據整合方案


1、多資料庫整合方案

多資料庫整合方案通過對各個數據源的數據交換格式進行一一映射,從而實現數據的流通與共享。
對於有全局統一模式的多資料庫系統,用戶可以通過局部外模式訪問本地庫,通過建立局部概念模式、全局概念模式、全局外模式,用戶可以訪問集成系統中的其他資料庫;對於聯邦式資料庫系統,各局部資料庫通過定義輸入、輸出模式,進行各聯邦式資料庫系統之間的數據訪問。
目前基於異構數據源系統的數據整合有多種方式,所採用的體系結構也各不相同,但其最終目的是相同的,即實現數據的流通共享。

2、數據倉庫整合方案

數據倉庫(Data Warehouse)是一個面向主題的(Subject Oriented)、集成的(Integrate)、相對穩定的(Non-Volatile)、反映歷史變化(Time Variant)的數據集合,用於支持管理決策。從數據倉庫的建立過程來看,數據倉庫是一種面向主題的整合方案,因此首先應該根據具體的主題進行建模,然後根據數據模型和需求從多個數據源載入數據。由於不同數據源的數據結構可能不同,因而在載入數據之前要進行數據轉換和數據整合,使得載入的數據統一到需要的數據模型下,即根據匹配、留存等規則,實現多種數據類型的關聯。這種方式的主要問題是當數據更新頻繁時會導致數據的不同步,即使定時運行轉換程序也只能達到短期同步,這種整合方案不適用於數據更新頻繁並且實時性要求很高的場合。

3、中間件整合方案

中間件是位於Client與Server之間的中介介面軟體,是異構系統集成所需的黏結劑。現有的資料庫中間件允許Client在異構資料庫上調用SQL服務,解決異構資料庫的互操作性問題。功能完善的資料庫中間件,可以對用戶屏蔽數據的分佈地點、DBMS平台、特殊的本地API等等差異。

4、Web Services整合方案

Web Services可理解為自包含的、模塊化的應用程序,它可以在網路中被描述、發布、查找以及調用;也可以把Web Services理解為是基於網路的、分散式的模塊化組件,它執行特定的任務,遵守具體的技術規範,這些規範使得Web Services能與其他兼容的組件進行互操作。當把應用擴展到廣域網時,傳統的DCOM模型就不能完全滿足分散式應用的要求:一是DCOM在進行網間數據傳遞時一般採用Socket套接字,要求開放特定的埠,這會給帶防火牆的網路帶來安全隱患,二是DCOM進行遠程對象調用使用的協議是遠程過程調用(RPC),這使得基於DCOM的構件無法與其他組件模型的構件進行相互的調用。Web Services對DCOM和CORBA的缺陷進行了改進,使用基於TCP/IP的應用層協議(如HTTP、SMTP等),可以很好地解決穿越防火牆的問題;更重要的是各種組件模型都可以將數據包裝成SOAP,通過SOAP進行相互調用。

5、主數據管理整合方案

主數據管理通過一組規則、流程、技術和解決方案,實現對企業數據一致性、完整性、相關性和精確性的有效管理,從而為所有企業相關用戶提供準確一致的數據。
主數據管理不是新技術,它的核心其實就是對於數據的管理,只不過應用了先進的理論方法作為指導。主數據管理提供了一種方法,通過此方法可以從現有系統中獲取最新信息,並結合各類先進的技術和流程,使得用戶可以準確、及時地分發和分析整個企業中的數據,並對數據進行有效性驗證。