數據質量控制

數據質量控制

採用一定的工藝措施,使數據在採集、存貯、傳輸中滿足相關的質量要求的工藝過程。

數據質量控制方法


一個戰略性和系統性的方法能幫助企業正確研究企業的數據質量項目,業務部門與 IT 部門的相關人員將各自具有明確角色和責任,配備正確的技術和工具,以應對數據質量控制的挑戰。
Informatica 的六步法為幫助指導數據質量控制而設計,從初始的數據探查到持續監測以及持續進行的數據優化。業務部門與 IT 部門的數據使用者 — 業務分析師、數據管理員、IT 開發人員和管理員,能夠在六個步驟的每一步中協同使用 Informatica 數據質量解決方案;並在整個擴展型企業的所有數據領域和應用程序中嵌入數據質量控制。
步驟一:探查數據內容、結構和異常
第一步是探查數據以發現和評估數據的內容、結構和異常。通過探查,可以識別數據的優勢和弱勢,幫助企業確定項目計劃。一個關鍵目標就是明確指出數據錯誤和問題,例如將會給業務流程帶來威脅的不一致和冗餘。
步驟二:建立數據質量度量並明確目標
Informatica的數據質量解決方案為業務人員和IT人員提供了一個共同的平台建立和完善度量標準,用戶可以在數據質量記分卡中跟蹤度量標準的達標情況,並通過電子郵件發送URL來與相關人員隨時進行共享。
步驟三:設計和實施數據質量業務規則
明確企業的數據質量規則,即,可重複使用的業務邏輯,管理如何清洗數據和解析用於支持目標應用欄位和數據。業務部門和IT部門通過使用基於角色的功能,一同設計、測試、完善和實施數據質量業務規則,以達成最好的結果。
步驟四:將數據質量規則構建到數據集成過程中
Informatica Data Quality支持普遍深入的數據質量控制,使用戶可以從擴展型企業中的任何位置跨任何數量的應用程序、在一個基於服務的架構中作為一項服務來執行業務規則。數據質量服務由可集中管理、獨立於應用程序並可重複使用的業務規則構成,可用來執行探查、清洗、標準化、名稱與地址匹配以及監測。
步驟五:檢查異常並完善規則
在執行數據質量流程后,大多數記錄將會被清洗和標準化,並達到企業所設定的數據質量目標。然而,無可避免,仍會存在一些沒有被清洗的劣質數據,此時則需要完善控制數據質量的業務規則。Informatica Data Quality可捕獲和突顯數據質量異常和異常值,以便更進一步的探查和分析。
步驟六:對照目標,監測數據質量
數據質量控制不應為一次性的“邊設邊忘”活動。相對目標和在整個業務應用中持續監測和管理數據質量對於保持和改進高水平的數據質量性能而言是至關重要的。Informatica Data Quality包括一個記分卡工具,而儀錶板和報告選項則具備更為廣泛的功能,可進行動態報告以及以更具可視化的方式呈現。

Informatica數據質量控制解決方案組件

上面介紹的Informatica六步法,該方法運用Informatica數據質量解決方案,提供公司所需要的各種數據質量管理能力,並確保其所有數據均是完整的、一致的、準確的、通用的。該解決方案包括幾個針對特定用途優化的組件:
Informatica Data Explorer運用基於角色的工具可促進業務部門與IT部門之間的協作,該數據探查軟體發現和分析任何來源中任何類型數據的內容、結構和缺陷。
Informatica Data Quality軟體執行清洗、解析、標準化和匹配流程並使得可視記分卡和儀錶盤上的持續監測得以進行。與Informatica data Explorer類似,它特有基於角色的工具,業務部門和IT部門可以藉此得以協同工作。
Informatica Identity Resolution軟體能使各機構從60多個國家/地區以及各企業和第三方應用程序中搜尋和匹配一致數據。

用於加強協作的基於角色的工具

Informatica數據質量解決方案為業務部門與IT部門間的協作提供基礎。其基於角色的工具特色設計使得業務分析師、數據管理員、IT開發人員和管理員能夠充分利用他們獨特的技能體系,並在流程中與所有相關人員溝通。
Informatica Analyst:適用於業務分析師和數據管理員。通過用語義術語表述數據,該款基於瀏覽器的工具使分析師和數據管理員能夠探查數據、創建和分析質量記分卡、管理異常記錄、開發和使用規則,以及與IT部門展開協作。
Informatica Developer: 適用於IT開發人員。這個基於Eclipse開發環境允許開發人員發現、訪問、分析、探查和清晰處於任何位置的數據。開發人員可以為邏輯數據對象建模,將數據質量規則與複雜轉換邏輯合併,並在邏輯制定后,進行中游探查以驗證和調試邏輯。
Informatica Administrator: 適用於IT管理員。該工具為IT管理員帶來集中配置和管理的能力。管理員可以監測和管理安全性、用戶訪問、數據服務、網格和高可用性配置。

最好的數據質量方案的特徵


1. 協作性。業務部門和IT部門為數據質量共同擔責,業務分析師、數據管理員、IT開發人員和管理員各自將具有明確分工和適於其獨特技能和視角的技術。
2. 前瞻性。業務部門和IT部門認識到所有機構都會不同程度地受到劣質數據的影響,有必要再劣質數據嚴重影響到企業業績之前,積極探查數據以發現和糾正問題。
3. 可重複使用。有關數據探查與清晰的業務規則可被重複運用於任意數量的應用程序,而不論數據時內部預置、在合作夥伴處還是在雲環境中。
4. 普遍深入性。數據質量將擴展至所有相關人員、數據領域、項目和應用程序,而不論數據是內部預置、在合作夥伴處還是在雲環境中。

在整個企業範圍實施數據質量的挑戰


所有組織都具有數據質量問題困擾。隨著消除部門障礙以及在應用程序間移動數據,某些數據質量問題將首次得以發現。
由數據質量問題造成的開銷很高。不完整、不一致和不準確的數據令業務用戶感到沮喪,他們對數據和包含數據的系統的信心與信賴感會逐漸消弱。劣質數據會導致各類開銷巨大的問題,例如項目和報告延遲、目標缺失、流程錯誤、合規性問題以及不滿的客戶。隨著數據需求擴展到客戶數據以外並變得更為實時化,隨著與防火牆外的用戶共享數據,數據質量問題的發生概率將提升。
業務部門無法自行解決數據質量問題。業務經理、業務分析師和數據管理員缺乏合適的工具和流程。IT 部門通常無法在業務部門要求的時間內給予響應。為響應自身的業務要求,部門個體和業務單元會頻繁實施其自身的數據質量項目。雖然這些項目可以解決迫在眉睫的問題或滿足當前需要,但是這種一次性方法其實具有較大的相關性。這些項目個體不是改善整個企業數據質量的總體策略的一部分。為單個項目創建的任何數據質量規則或人為措施均不能重複運用於其它項目或應用程序。
在整個企業中缺乏一致、廣泛的數據質量管理方式,壞數據持續蔓延。對數據質量的信心持續下滑。成本持續上升。您的業務仍然處在風險之中。

數據質量控制需要做到普遍而深入


僅有一個或兩個策略型數據質量方案還遠遠不夠。隨著數據量增加、數據要求提
高、數據流採用的新渠道,必須在企業層處理數據質量。數據質量控制必須做到
普遍而深入。
為了普遍深入地開展數據質量控制:
· 更多人員需要參與到數據質量控制流程中。數據質量控制必須得到整個企業的共
同努力。每個人(包括業務經理、數據管理員、分析師和 IT 開發人員)都需要
配備他們所需的工具來共同承擔有關數據的責任。
· 對於低劣數據對業務的影響,必須有清楚的認識。在您組織中的每個人都必須將
數據視為最為寶貴的企業資產。在清楚數據的寶貴價值后,業務部門和 IT 部門
需要更為主動地參與、負責並確保數據的質量。
· 數據質量控制需要拓展到各個領域。數據質量控制的開展不僅限於名稱和地址,
還應納入所有數據域,例如產品、財務以及資產數據。
· 必須在所有應用程序中部署通用的數據質量規則。必須主動防範劣質數據進入組
織;必須主動使用數據服務清洗劣質數據。
· 必須公布和共享數據質量記分卡。整個組織需要跨所有項目、流程和應用程序,
監控並檢測數據質量。
實施普遍深入的數據質量控制意味著建立對於實現以下目標必不可少的組織、
流程和基礎設施:
· 提高所有相關人士的能力
· 支持所有數據域
· 針對任何數據源中的任何數據(不論在企業內部還是在 Internet 雲中),訪問
和部署通用的數據質量規則

目前無法普遍深入地進行數據質量控制的原因


如果您的組織與大多數組織一樣,您將清楚您四處面臨著數據質量問題。由於
難以指出問題所在,您將不得不通過一種特殊的方式來處理問題。雖然您不清
楚從何處開始,但是您知道問題難以修正。
您無法為所有需要參與的人員提供合適的參與工具。您將無法清洗位於各個國
家區域、以各種語言表示的多個數據域或數據。您無法訪問需要清洗的所有數
據源或對壞數據進入應用程序進行日常防範。
請更為詳細地審視這些障礙。
缺乏工具
在使用代碼或工具構建規則的數據質量項目中,按慣例一般只會涉及到 IT 開發
人員。然而,數據質量不僅是一個 IT 問題,而且它還是一個業務問題,需要擁
有業務所有權才可以解決。但是,業務部門未配備開展此類任何工作所需的工
具。關鍵的相關人士沒有讓他們參與數據質量控制流程所需的工具。
數據管理員和業務分析師(應用程序或流程內部數據的負責人)通常只能通過
未得到較好配備的普通或定製工具,管理多個數據類型或支持類別廣泛的項目
(在這些項目中數據質量是解決方案的關鍵部分)。他們主要依靠 IT 部門來訪
問數據、更改規則、更新參考數據以及提取報告。所有這些動作不僅費時,而
且會帶來延遲。例如,數據管理員通常在電子數據表或資料庫中運行一些宏或
代碼來測試有關數據質量的數據是否存在錯誤。如果管理員發現問題,他會進
行註釋並將註釋通過電子郵件發送給 IT 部門,以指出需要更改的內容。下個
月,他還會執行相同的操作。在此流程中,沒人會感到特別樂意或十分確信。
這個流程太長、太過低效並且不能擴展。
受到低劣數據直接影響的業務經理同時還缺乏用於參與改善數據質量所需的工
具。他們無法察覺低劣數據對其流程和應用程序的業務影響,並且無法加快解
決。雖然他們可能願意承擔數據質量的責任,但是如果沒有他們需要的工具,
業務部門除了沮喪也只能作為局外人靠邊站。
有限的領域
從傳統意義上說,數據質量部署僅限於與客戶數據有關的市場營銷、銷售和帳單開
立流程。數據質量產品僅限於處理名稱和地址數據。
但是,在其它領域(例如產品、財務和資產數據),低劣數據具有非常大的業務影
響。為處理客戶、產品、財務、資產、位置和合作夥伴數據而改進傳統的數據質量
工具並非易事。
考慮到當今業務環境的全球性,數據質量工具需要在數據匹配和清洗方面提供適用
於所有國家/地區和領域的全球覆蓋。如果數據質量工具只能處理特定地理區域的
客戶數據,它們則將無法徹底實現投資回報。它們有限的能力範圍將妨礙全球客戶
服務和發起運營效率方案,例如客戶和主數據管理的單一視圖,這對業務會產生持
續的負面影響
污染防治
應用程序由多個數據源驅動,例如平面文件、非結構數據和半結構數據、資料庫、
ERP 系統以及大型主機等等。劣質數據以多種方式進入組織,並從一個應用程序流
至另一個應用程序。
主要的損壞來源是在數據錄入或數據獲取時。用戶可能會輸入不完整、不一致、
不標準或重複的數據。雖然有些應用程序設有足夠的控制措施,但是大部分應用
程序無法防範壞數據進入系統。
並且沒有為在所有應用程序中實施通用的數據質量標準而設立流程。雖然可以為部
門應用程序實施數據質量規則,但是無法重複運用這些規則。由於無法在多個應用
程序和多個項目中重複使用數據質量規則,導致無法讓所有應用程序免受低劣數據
的污染。

如何貫徹普遍深入的數據質量控制


考慮到劣質數據造成的財務影響,這將促使您的組織在所有相關人士、所有數據
域、所有應用程序和所有地理位置開展數據質量控制工作。
以下是有助於您在整個組織開展數據質量控制的五個主要途徑:
1. 了解低劣數據質量的影響,對其進行持續監控
2. 使所有相關人士都可以參與到數據質量控制流程中
3. 不論數據域和數據用途,確保總能獲得令人放心的數據
4. 部署跨所有業務應用程序,並且可以重複運用的數據質量控制規則
5. 運用一個數據集成平台
1. 了解低劣數據的影響並繼續評測和監控數據質量
為避免您的公司由於劣質數據而流失客戶和喪失競爭優勢,您需要找出、解決和防
范數據質量問題 — 不論這些問題位於何處。
首先是探查您的數據以發現和了解數據異常和暗含的關係,而不必考慮數據自身
的複雜性或數據源之間的關係。此步驟的輸出結果是元數據(有關數據說明的數
據),可用於清洗下游數據或用於未來的數據轉換。憑藉一個有關數據內容、質
量以及結構的完整和完全準確的視圖,您可以了解劣質數據的業務影響並快速采
取修正措施。
但是,找到並修正數據質量問題並非一個一次性的項目。您需要持續評測和監控數
據質量問題。業務經理、業務分析師和數據管理員需要合適的工具,以便能夠自行
定義數據規則、跟蹤和監控數據質量趨勢,以及發布和共享數據質量度量標準。通
過讓所有合適的人員參與了解、評測、監控和最終改善數據質量,您的企業可以構
建長期並可持續開展的數據質量控制流程,從而您可以信任所有數據。
2. 使所有相關人士都可以參與到數據質量控制流程中
業務經理、數據管理員、數據分析師以及 IT 開發人員需要一個統一、基於角色,
在前端為每個角色定製並受到通用共享基礎設施支持的工具集。憑藉這些基於角色
的工具,所有相關人士將配有他們所需的介面和功能。由於各個角色人員均能通過
統一的基礎設施與其它角色人員進行交互,因此改善數據質量的工作將變得更具有
協作性和更為優化。
· 業務經理需要易於共享、基於瀏覽器的記分卡,這樣他們只需通過電子郵件將
URL 發給同事,即可查看並共享數據質量度量標準和報告。在他們可以了解劣質
數據對業務目標影響的時候,數據質量將直接與他們相關聯。
· 數據管理員和數據分析師需要友好的用戶界面、基於瀏覽器的探查和規則驗證,
從而他們可以自行探查和分析數據、定義和監控數據質量目標、配置和運行數據
質量規則,並且不必依靠 IT 部門。
· IT 開發人員需要高生產效益的開發工具。數據探查、數據清洗和數據集成功能必
須統一,這樣他們可以快速開發、優化、部署和管理可以在所有應用程序和數據
集成項目中重複使用的集中式數據質量服務。
8
3. 不論數據域和數據用途,確保總能獲得令人放心的數據
適用於地址清洗和客戶匹配的預建規則可生成即時可現、實實在在的價值。由於客
戶數據格式和參考數據通過使用郵政地址格式和通用的詞源/簡寫在全世界實現了
標準化,因此這些規則能夠得以實現。對於可以從客戶數據改善中獲益的額外項
目,有能力拓展這些規則和流程尤為關鍵。該重複使用可產生更高的一致性並更快
為新項目產生價值。但是,僅有客戶數據還不夠。
對於不存在全局標準的數據域(例如,產品數據、財務數據和資產數據),您需要
有一個有效途徑,以便使用定製規則和特定於公司的參考數據來實施數據質量控
制。您需要的平台應能提供構建和維護定製規則所必需的可配置能力和靈活性。
4. 部署跨所有業務應用程序,並且可以重複運用的數據質量
控制規則
業務應用程序曾一度包含用於支持數據質量的邏輯(例如,“客戶名稱”欄位要求
提供一個名稱;“出生日期”欄位要求提供一個日期;“汽車註冊號”欄位要求提
供一個字母數字的字元組)。由於這些規則嵌在應用程序中,它們通常未被記載並
且無法重新配置。結果,這些規則無法跟上不斷變化的業務需求。這些因素使得幾
乎不可能在整個組織中管理數據質量或實施數據治理。
其解決方案是從應用程序中提取規則,集中管理數據質量規則,並在所有應用程序
中重複使用同樣的規則。為使此途徑更為高效,必須以獨立於任何應用程序的形式
構建規則。通過這種方式,可以對市場營銷系統、帳單開立系統、計劃系統和 MDM
應用程序中的客戶數據運用相同的規則。每個業務應用程序均可以請求將特定於域
的規則應用到需要這些規則的場合(例如,在將數據輸入表格或批處理流程中)。
這些可重用的規則稱為數據質量服務。這些服務可以通過運用數據集成技術所特有
的能力來實現:能夠訪問所有數據源;能夠構建和共享獨立於任何物理數據源的規
則和參考數據;能夠支持多個請求並保證在設定的響應時間內給出結果。最典型的
數據質量服務包括探查、清洗、標準化、地址驗證、匹配以及監控服務。
5. 運用一個數據集成平台
對於向所有的相關人士、項目和應用程序提供普遍深入的數據質量控制,最佳和最
為經濟實惠的方式是使用數據集成平台。數據集成平台具有一個可重用的規則集和
適合管理數據質量的工具,為數據探查和數據清洗提供了單一的開發環境:
· 在所有應用程序中
· 適用於所有數據域
· 跨所有國家/地區和語言
· 適用於所有數據集成項目
憑藉數據集成平台,IT 組織可以構建、集中管理和快速部署可重用的數據質量規
則。可以在所有數據集成項目中重新使用這些規則,從而極大降低成本
數據集成平台提供可在整個企業中共享的一組協作功能和一組通用的規則和元數
據。結果,業務部門和 IT 部門的員工可以更為高效地協作,以便在幾天(而不是
幾月)內設計和實施滿足業務需求所必需的數據規則。
數據集成平台是提供普遍深入的數據質量控制的理想基礎設施,該平台可以為所有
數據服務(不論在內部預置、在合作夥伴處或在雲中)提供通用連接性以及統一數
據的探查和清洗功能。

適用於開展普遍深入的數據質量控制的平台


Informatica 確保組織中所有的關鍵人士都可以展開有效協作,從而更快找出壞數據
並予以修正。
Informatica® 9 是一個可以提供普遍深入的數據質量控制的企業數據集成平台。憑藉
Informatica 平台,您的組織可以:
· 為所有應用程序主動清洗數據,保持數據清潔
· 共同肩負數據質量控制和數據治理責任
· 建立對企業數據的信心和信賴感
Informatica 平台可幫助業務部門更為自立,同時使 IT 部門更為高效。業務經理、業務
分析師和數據管理員可以更為主動地參與數據質量控制流程。他們可以分析數據並
自行定義數據規則(降低對有限 IT 資源的依賴程度),使用簡單、基於瀏覽器並專
為此目的設計的工具。IT 部門將獲得單個、統一併具有較高生產力的環境,用於開展
數據探查、數據清洗以及管理可在所有數據集成項目中重複使用的數據質量規則。
高度準確的全球匹配和地址清洗(具有可感知區域、預建規則和參考數據)將數據
質量控制拓展到任何地理位置,使您能夠將數據質量控制應用到任何數據域 — 客
戶、產品、財務和資產。數據質量規則可以在各類項目中重複使用,例如數據遷
移、數據整合、主數據管理以及數據質量項目。
Informatica 平台使您能夠使用成熟的數據集成技術連接至任何類型的數據源。集中
數據質量規則使您能夠改善所有應用程序中的數據 — 不論這些應用程序包含何種
數據或者這些應用程序是否獲取、移動或消費數據。基於 SOA 的數據質量控制服
務使您能夠在數據錄入或計劃批處理過程中防範劣質數據。