DataStage
數據集成的軟體平台
IBM® InfoSphere™ Information Server 是一種數據集成軟體平台,能夠幫助企業從散布在各個系統中的複雜異構信息獲得更多價值。InfoSphere Information Server提供了一個統一的平台,使公司能夠了解、清理、變換和交付值得信賴且上下文豐富的信息。
IBM® InfoSphere™ DataStage® and QualityStage™ 提供了圖形框架,您可使用該框架來設計和運行用於變換和清理、載入數據的作業。
依靠您具有許可證的那些產品,您可以開發可變換和清理、載入數據的并行作業、可變換數據的伺服器作業以及可變換數據的大型機作業。并行作業和伺服器作業在 IBM InfoSphere Information Server 引擎上運行。大型機作業將生成可在大型機上運行的 COBOL 代碼。
您可以在 IBM InfoSphere DataStage and QualityStage Designer 客戶機中設計作業並在 IBM InfoSphere DataStage and QualityStage Director 客戶機中運行這些作業。作業以項目的形式組織,您可以使用 IBM InfoSphere DataStage and QualityStage Administrator 客戶機來管理這些項目。您可以使用 InfoSphere Information Server Manager 來部署作業設計及其間接材料。
數據變換和移動是對源數據進行選擇和轉換並映射為目標系統所需格式的過程。該過程將處理數據,使它與業務、域和完整性規則保持一致,並與目標環境中的其他數據保持一致。
IBM® InfoSphere™ DataStage® 具有滿足最苛刻的數據集成需求所需的功能性、靈活性和可伸縮性。
InfoSphere DataStage 具有以下功能:
• 從範圍最廣的企業和外部數據源集成數據
• 合併數據驗證規則
• 使用可伸縮的并行處理來處理並變換大量數據
• 處理非常複雜的變換
• 管理多個集成過程
• 可直接連接到作為源或目標的企業應用程序
• 利用元數據進行分析和維護
• 以批處理、實時或 Web service 方式操作
變換可以採用以下形式:
聚集
將數據值合併或匯總到單個值中。收集要在周級別進行聚集的每日銷售數據是聚集的一個常見示例。
基本轉換
確保數據類型從源正確地轉換並映射到目標列。
清理
解析不一致情況並修正源數據中的異常。
派生
通過使用演演算法變換多個源中的數據。
充實
結合內部或外部源中的數據,向數據提供更多含義。
規範化
減少冗餘和可能重複的數據。
轉換
將輸入流中的記錄轉換為數據倉庫或數據集市的相應表中的多條記錄。
排序
根據數據或字元串值對數據進行排序。
IBM® InfoSphere™ DataStage® 支持對數據結構從簡單到高度複雜的大量數據進行收集、變換和分發操作。InfoSphere DataStage 管理到達的數據以及定期或按調度接收的數據。InfoSphere DataStage 使公司能夠通過對大量數據進行高性能處理,解決大規模的業務問題。
通過利用多處理器硬體平台的并行處理能力,InfoSphere DataStage 可以擴展為滿足日益增長的數據量的需求、嚴格的實時需求和不斷縮短的批處理時間窗口的需求。
InfoSphere DataStage 通常部署到企業應用程序、數據倉庫以及數據集市之類的系統。InfoSphere DataStage 通過以下方式提供該功能:
支持操作、事務和分析目標之間的數據移動和變換
幫助公司確定如何很好地(批處理方式或者實時方式)集成數據以滿足其業務需求
• 節省時間並提高設計、開發和部署的一致性
InfoSphere DataStage 體系結構包含以下組件:
公共用戶界面
InfoSphere DataStage 用戶界面包含以下客戶機應用程序:
IBM InfoSphere DataStage and QualityStage™ Designer
用於創建 InfoSphere DataStage 應用程序(稱為作業)的圖形設計界面。因為變換是數據質量不可或缺的部分,所以 IBM InfoSphere DataStage and QualityStage Designer 是用於 InfoSphere DataStage 和 IBM InfoSphere QualityStage 的設計界面。
每個作業都指定了數據源、所需變換和數據的目標。編譯作業以創建由 InfoSphere DataStage and QualityStage Designer 調度並在 IBM InfoSphere Information Server 引擎上運行的可執行文件。設計器客戶機將開發元數據寫入到動態存儲庫,而部署所需的已編譯執行數據將寫入到元數據存儲庫。
InfoSphere DataStage and QualityStage Director
用於驗證、調度、運行和監視 IBM InfoSphere DataStage 序列的圖形用戶界面。導向器客戶機查看操作存儲庫中的作業數據,並將項目元數據發送到元數據存儲庫以控制作業的流程。
IBM InfoSphere DataStage and QualityStage Administrator
用於管理任務(例如設置 IBM InfoSphere Information Server 用戶;記錄、創建和移動項目;設置清除記錄的條件)的圖形用戶界面。
公共服務
InfoSphere DataStage 的多個離散服務提供了配置支持日益多變的用戶環境和分層體系結構的系統所需的靈活性。公共服務提供了體系結構各部分之間的靈活且可配置的相互連接:
元數據服務,例如影響分析和搜索
支持所有 InfoSphere DataStage 功能的執行服務
支持 InfoSphere DataStage 任務的開發和維護的設計服務
公共存儲庫
公共存儲庫包含支持 InfoSphere DataStage 所需的以下類型的元數據:
項目元數據
所有項目級別元數據組件(包括作業、表定義、內置階段、可復用子組件和常式)都組織到文件夾中。
操作元數據
存儲庫中包含元數據,用於描述集成過程運行的操作歷史數據、作業是成功還是失敗、使用的參數以及這些事件的時間和日期。
設計元數據
存儲庫中包含 InfoSphere DataStage and QualityStage Designer 和 IBM InfoSphere Information Analyzer 創建的設計時元數據。
公共并行處理引擎
該引擎運行在各種設置中抽取、變換和裝入數據的可執行作業。引擎使用并行性和流水線以快速處理大量工作。
公共連接器
連接器提供與大量外部資源的連接,以及從處理引擎對公共存儲庫的訪問。InfoSphere Information Server 支持的所有數據源都可用作作業的輸入或輸出。
中心 IBM® InfoSphere™ DataStage® 元素可以是項目、作業、階段、鏈接、容器和表定義。
InfoSphere DataStage 是您最初通過 IBM InfoSphere DataStage and QualityStage™ Administrator 創建的基於項目的開發環境。在安裝期間或當您啟動InfoSphere DataStage 客戶機工具(除管理器之外)時,您可以創建項目。每個項目都包含 InfoSphere DataStage 組件(包括作業和階段、表定義以及鏈接和容器)。作業和階段
作業定義確定 IBM InfoSphere Information Server 如何執行其工作的步驟順序。設計了作業后,將對作業進行編譯,並在并行處理引擎上運行。引擎根據作業設計運行多種功能,例如連接、抽取、清理、變換和數據裝入。
組成作業的各個步驟稱為階段。InfoSphere Information Server 提供了大量預構建階段以用於執行最常見的數據集成任務,例如排序、合併、連接、過濾、變換、查找和聚集。階段包括功能強大的組件,以高效地訪問用於讀取和裝入的關係資料庫(包括并行關係資料庫)。
階段通常提供大多數企業數據集成應用程序所需的應用程序邏輯的 80% 到 90%。InfoSphere Information Server 還提供許多用於構建和集成定製階段的階段類型:
• 合併階段
• 使您能夠以并行方式運行現有順序程序
• 構建階段
• 使您能夠將自動生成的 C 表達式寫入到并行定製階段中
• 定製階段
• 提供了用於開發複雜和可擴展階段的完整 C++ API。
圖 1 顯示了由數據源、Transformer(轉換)階段和目標資料庫組成的簡單作業。階段之間的鏈接表示數據流入階段或從階段流出。InfoSphere DataStage 提供各種不同的階段。
表 1 描述一些具有代表性的示例。
表 1. 階段示例 | |
---|---|
階段 | 描述 |
Transformer 階段 | 對輸入數據集執行任何所需轉換,然後將數據傳遞到另一個處理階段或傳遞到將數據寫入到目標資料庫或文件的階段。 |
Sort 階段 | 執行複雜的高速排序操作。 |
Aggregator 階段 | 將單個輸入數據集中的數據行分類為組,並計算總數或每組的聚集數。 |
Complex Flat File 階段 | 從包含複雜數據結構(例如陣列或組)的平面文件抽取數據。 |
DB2® 階段 | 從 IBM DB2 讀取數據或將數據寫入到其中。 |
每個階段都具有告訴階段如何執行或處理數據的屬性。屬性可能包括 Sequential File 階段的文件名、要排序的列、要執行的變換和 DB2 階段的資料庫表名稱。
InfoSphere DataStage 插件體系結構便於 InfoSphere 軟體和供應商添加階段,例如其他連接。
表定義是所處理數據的記錄布局(或模式)和其他屬性。表定義包含列名、數據類型、長度和其他列屬性(包括鍵和 NULL 值)。可使用設計器客戶機從資料庫、COBOL 副本和其他源導入表定義。然後,在鏈接中使用這些表定義以描述在階段之間流動的數據。
在 InfoSphere DataStage 中,鏈接通過處理階段將作業中描述數據流和數據定義的各個階段從數據源連接到數據目標。通常,連接到階段的輸入鏈接將數據傳輸到階段。輸出鏈接傳輸經過階段處理的數據。
容器中裝有用戶定義的階段分組,或可復用的鏈接。容器使工作流程的共享更容易。有兩種類型的容器:
• 共享
• 可復用的作業元素,通常由大量階段和鏈接組成
• 本地
• 在作業內創建並且僅能由該作業訪問的元素。在作業圖窗口的標籤頁中編輯的本地容器可用於“清除”圖,以隔離流程的各個區域。