數據質量

數據質量

數據是組織最具價值的資產之一。企業的數據質量與業務績效之間存在著直接聯繫,高質量的數據可以使公司保持競爭力並在經濟動蕩時期立於不敗之地。有了普遍深入的數據質量,企業在任何時候都可以信任滿足所有需求的所有數據。

數據概覽


為了充分實現數據資產的業務價值,您需要一個數據集成平台。而Informatica 平台則是一個強大的數據集成平台,也是唯一可以讓您向擴展型企業交付及時、可信的相關數據的數據集成平台(任何數據、任何時間、任何地點),無論是內部預置還是在雲中。
Informatica Data Quality能幫助企業找出並修正藏匿於任意位置、令您的公司動輒花費上百萬的數據質量問題。揭露所有數據域、應用程序和地域。彙集所有相關人員並幫助他們承擔責任。清洗數據並保持數據清潔。
IDQ轉換了您的業務部門工作方式。它使每個人都可以始終相信滿足其各類用途的所有數據。
IDQ擴展了 Informatica 平台的現有數據質量功能,通過一個統一平台,為所有項目和業務應用程序的所有相關人士、項目和數據域(無論在內部預置,還是在雲中),提供普遍深入的數據質量控制。
憑藉 Informatica Data Quality,您的整個組織可以:
· 為所有應用程序主動清洗數據,保持數據清潔
· 共同肩負數據質量控制和數據治理責任
· 建立對企業數據的信心和信賴感

主要特色


Informatica Data Quality通過一個全面、統一的平台,為所有項目和應用程序的相關人士、項目和數據域(無論在內部預置,還是在雲中),提供普遍深入的數據質量控制。
· Informatica Data Quality結合了強大的數據分析、清洗、匹配、報告、監控能力和易於使用的界面,使業務信息所有者能夠在整個企業範圍內實施和管理數據質量計劃。
· Informatica Data Quality Cloud Edition (雲計算版)將普遍數據質量的功效和功能與最新雲計算平台的靈活性、易用性和經濟性相結合,向所有相關人士、項目和數據域交付數據質量。
· Informatica Identity Resolution是一款功能強大且高度可擴展的身份識別解決方案,讓企業和政府機構能夠批量且實時地搜索和匹配來自超過60種語言的身份數據。
· Informatica Data Explorer通過強大的數據探查、數據映射能力和前所未有的易用性的完美組合,讓您輕鬆發現、監控數據質量問題。
· AddressDoctor為全球200多個國家和地區提供全球地址驗證技術,其功能包括對多級地址(如街道級別)的支持,以及交付點驗證和地理編碼。

主要優勢


降低成本
通過重複使用一組單一的規則和工具和單一的開發環境來管理數據質量,從而降低成本:
在所有應用程序中
適用於所有數據域
跨所有國家/地區和語言
適用於所有數據集成項目
更高效地運作
使業務分析師和數據管理員既可以查看和參與提高數據質量,又可以針對數據質量對其應用程序和流程的影響採取有效對策
通過使業務部門能夠參與數據質量流程,更快地解決業務問題
通過給予業務分析師合適的工具來自行管理數據質量任務,從而減輕對 IT 部門的依賴
可以更為高效地協作,以便在幾天(而不是幾月)內設計和實施滿足業務需求所必需的數據規則
憑藉高質量的數據為合規性方案提供支持
提高 IT 部門工作效率
通過協作工具和通用的項目環境,加速 IT 和業務部門之間的規範與複查的周期
快速訪問所有數據,從而更快完成數據質量項目
跨所有應用程序,輕鬆構建、集中管理和快速部署可重用的數據質量規則
通過運用能夠為進行匹配和地址清洗提供數據探查和預建規則的開發環境,並在此熟悉的開發環境中構建數據質量映射,加快展開項目
利用中途探查來快速驗證數據質量轉換情況
成批或實時地部署數據質量規則,而不必重新編碼
降低風險
防範於未然,找出、解決和避免數據質量問題,從而讓您的客戶不會因此破費和喪失競爭優勢
構建可長期持續保持的數據質量流程並信任所有的企業數據
通過在全球所有應用程序中統一實施數據質量控制,提高對企業數據對數據治理流程的支持的信心
憑藉久經考驗的企業級部署技術,降低故障風險

控制方法


一個戰略性和系統性的方法能幫助企業正確研究企業的數據質量項目,業務部門與 IT 部門的相關人員將各自具有明確角色和責任,配備正確的技術和工具,以應對數據質量控制的挑戰。
Informatica 的六步法為幫助指導數據質量控制而設計,從初始的數據探查到持續監測以及持續進行的數據優化。業務部門與 IT 部門的數據使用者 — 業務分析師、數據管理員、IT 開發人員和管理員,能夠在六個步驟的每一步中協同使用 Informatica 數據質量解決方案;並在整個擴展型企業的所有數據領域和應用程序中嵌入數據質量控制。
步驟一:探查數據內容、結構和異常
第一步是探查數據以發現和評估數據的內容、結構和異常。通過探查,可以識別數據的優勢和弱勢,幫助企業確定項目計劃。一個關鍵目標就是明確指出數據錯誤和問題,例如將會給業務流程帶來威脅的不一致和冗餘。
步驟二:建立數據質量度量並明確目標
Informatica的數據質量解決方案為業務人員和IT人員提供了一個共同的平台建立和完善度量標準,用戶可以在數據質量記分卡中跟蹤度量標準的達標情況,並通過電子郵件發送URL來與相關人員隨時進行共享。
步驟三:設計和實施數據質量業務規則
明確企業的數據質量規則,即,可重複使用的業務邏輯,管理如何清洗數據和解析用於支持目標應用欄位和數據。業務部門和IT部門通過使用基於角色的功能,一同設計、測試、完善和實施數據質量業務規則,以達成最好的結果。
步驟四:將數據質量規則構建到數據集成過程中
Informatica Data Quality支持普遍深入的數據質量控制,使用戶可以從擴展型企業中的任何位置跨任何數量的應用程序、在一個基於服務的架構中作為一項服務來執行業務規則。數據質量服務由可集中管理、獨立於應用程序並可重複使用的業務規則構成,可用來執行探查、清洗、標準化、名稱與地址匹配以及監測。
步驟五:檢查異常並完善規則
在執行數據質量流程后,大多數記錄將會被清洗和標準化,並達到企業所設定的數據質量目標。然而,無可避免,仍會存在一些沒有被清洗的劣質數據,此時則需要完善控制數據質量的業務規則。Informatica Data Quality可捕獲和突顯數據質量異常和異常值,以便更進一步的探查和分析。
步驟六:對照目標,監測數據質量
數據質量控制不應為一次性的“邊設邊忘”活動。相對目標和在整個業務應用中持續監測和管理數據質量對於保持和改進高水平的數據質量性能而言是至關重要的。Informatica Data Quality包括一個記分卡工具,而儀錶板和報告選項則具備更為廣泛的功能,可進行動態報告以及以更具可視化的方式呈現。

方案組件

上面介紹的Informatica六步法,該方法運用Informatica數據質量解決方案,提供公司所需要的各種數據質量管理能力,並確保其所有數據均是完整的、一致的、準確的、通用的。該解決方案包括幾個針對特定用途優化的組件:
Informatica Data Explorer運用基於角色的工具可促進業務部門與IT部門之間的協作,該數據探查軟體發現和分析任何來源中任何類型數據的內容、結構和缺陷。
Informatica Data Quality軟體執行清洗、解析、標準化和匹配流程並使得可視記分卡和儀錶盤上的持續監測得以進行。與Informatica data Explorer類似,它特有基於角色的工具,業務部門和IT部門可以藉此得以協同工作。
Informatica Identity Resolution軟體能使各機構從60多個國家/地區以及各企業和第三方應用程序中搜尋和匹配一致數據。

主要工具

Informatica數據質量解決方案為業務部門與IT部門間的協作提供基礎。其基於角色的工具特色設計使得業務分析師、數據管理員、IT開發人員和管理員能夠充分利用他們獨特的技能體系,並在流程中與所有相關人員溝通。
Informatica Analyst:適用於業務分析師和數據管理員。通過用語義術語表述數據,該款基於瀏覽器的工具使分析師和數據管理員能夠探查數據、創建和分析質量記分卡、管理異常記錄、開發和使用規則,以及與IT部門展開協作。
Informatica Developer: 適用於IT開發人員。這個基於Eclipse的開發環境允許開發人員發現、訪問、分析、探查和清晰處於任何位置的數據。開發人員可以為邏輯數據對象建模,將數據質量規則與複雜轉換邏輯合併,並在邏輯制定后,進行中游探查以驗證和調試邏輯。
Informatica Administrator: 適用於IT管理員。該工具為IT管理員帶來集中配置和管理的能力。管理員可以監測和管理安全性、用戶訪問、數據服務、網格和高可用性配置。

主要特徵


1. 協作性。業務部門和IT部門為數據質量共同擔責,業務分析師、數據管理員、IT開發人員和管理員各自將具有明確分工和適於其獨特技能和視角的技術。
2. 前瞻性。業務部門和IT部門認識到所有機構都會不同程度地受到劣質數據的影響,有必要再劣質數據嚴重影響到企業業績之前,積極探查數據以發現和糾正問題。
3. 可重複使用。有關數據探查與清晰的業務規則可被重複運用於任意數量的應用程序,而不論數據時內部預置、在合作夥伴處還是在雲環境中。
4. 普遍深入性。數據質量方案將擴展至所有相關人員、數據領域、項目和應用程序,而不論數據是內部預置、在合作夥伴處還是在雲環境中。

商業智能


主要角色

對於增強數據資產準確度和價值而言,將數據質量規則與活動(探查、清洗和監測)和MDM流程相集成顯得十分關鍵。在啟動任何MDM項目之前,您都需要了解源數據的內容、質量和結構。在數據源進行的數據探查使數據管理員和數據倉庫管理員能夠在數據進入MDM系統之前,快速發現和分析跨所有數據源的所有數據異常。此流程可極大加快從MDM實施中獲取價值。
由於數據清洗增強了數據的準確度,帶來了數據完整性,並從源頭增進了數據的可信度,因此數據清洗改善了MDM系統中的數據一致性。一旦源數據進入MDM系統,它將接受數據質量處理,其中包括驗證、更正和標準化。MDM系統存儲了在數據清洗前後的整個歷史記錄,從而開發人員不必再跟蹤數據倉庫中的數據沿襲。
最後,數據質量度量標準使數據倉庫管理員能夠更好地監控參考數據的質量,並確保可以長期持續使用高質量的數據。
因此,從技術角度看,實施MDM和Informatica Data Quality,作為數據倉庫中主數據的確定來源,可以從提取、轉換和載入(ETL)流程中簡化數據集成。此方法可極大減低與數據倉庫有關的整個開發和維護工作。通過建立數據質量度量標準和定義數據質量目標,數據倉庫管理員和數據管理員能夠更好地監控參考數據的質量,並確保隨著時間的推移能夠跨企業持續使用高質量的數據。MDM簡化了對數據倉庫維度更新的處理,因為用於確定更改內容的所有邏輯均封裝在MDM系統中。
此外,MDM系統可以卸除大多數數據倉庫的歷史記錄跟蹤負擔,使數據倉庫僅管理它需要為進行聚合而應跟蹤的變更。此系統可帶來更小的數據倉庫維度以及對負荷和查詢性能的重大改進。運用MDM和Informatica Data Quality將最終降低數據集成的工作量,提高從商業智能和報表推導的洞察分析的質量,確保能夠從為商業智能增效的數據倉庫方案中獲得預期的價值和投資回報。

關係分析

當無法通過商業智能系統和報告系統提供準確的數據時,業務總體上都會受到影響。以下是為創建報表的商業智能系統提供不可靠數據所造成的一些後果:
業務負責人:不準確的管理報告導致決策不夠明智。
合規主管:合規性法案要求公司能為其財務和合規報表提供一定的透明度和可審計性。
業務分析師:如果業務分析師花費過多時間在多個商業智能系統間手動搜索和整理信息以更新和修正報表,則業務分析師的生產率會受到影響。此低效的工作會直接影響成本和營利能力。
這些業務問題的根源在於沒有關於客戶、產品、渠道合作夥伴和供應商的唯一真實版本。由於在處理每個業務流程的不同系統間收集、存儲和管理這些數據(亦稱之為參考數據或主數據),因此,需要正確地解析重疊和衝突的參考數據,以獲得唯一真實版本,從而帶來寶貴而可操作的洞察力。許多組織擁有數十或數百資料庫,並且在這些資料庫中有維護相同核心參考對象的數十個(有時為數百個)不同的應用程序,而這些核心參考對象還具有重疊的屬性。
商業智能系統的用途是以中立的視角報告取自多個系統的現有數據。商業智能系統可以為維度分析進行一些累積工作,但是設計或配備商業智能系統並非為了創建唯一的真實版本。在取自應用程序孤島的客戶或產品數據中存在的不一致會對數據倉庫中運行的分析可靠性產生消極的影響。
總而言之,企業的商業智能只會與企業的數據質量水平相當。

五種形式

商業智能已經發展成為多種形式,旨在滿足企業不斷增長的要求和任務關鍵型活動日益增長的水平。這些形式都有其自己的一套數據質量要求。
記分卡和儀錶板
記分卡和儀錶板正被廣泛採用,越來越多的用戶利用它們獲取財務,業務和績效監控的鳥瞰圖。通過可視化的圖形、圖標和計量表,這些傳輸機制幫助跟蹤性能指標並向員工通知相關趨勢和可能需要的決策。提供集成視圖所需的數據元素通常跨越多個部門和學科,需要絕對最新才能有效。
數據質量會影響記分卡和儀錶板用戶,因此這些用戶必須能夠:
1. 使用儀錶板中計量表和刻度盤上的完整數據,並迅速採取措施
2. 獲取集成視圖並使用標準化數據進行協作
3. 利用具有一致數據的正式記分卡方法
4. 向下鑽取以查看組或個人級別績效的準確數據
5. 找到能夠生成明顯趨勢且重複數據最少的業務流程
6. 推導關聯性並通過驗證的數據執行交叉影響分析
企業報告
企業報告為所有級別的個人提供來自企業資源規劃(ERP)、客戶關係管理(CRM)、合作夥伴關係管理(PRM)、發票和帳單系統,以及整個企業內其他源系統的各種運營報告和其他業務報告。這些報告分佈廣泛,而薪酬和其他激勵計劃通常與報告的結果有關。
數據質量會影響組織報告,因為組織必須:
1. 瀏覽多個報告,將它們顯示到從不同來源聚合數據的多個表單中
2. 選擇各種參數並通過標準化數據為用戶定製報告
3. 利用各種性能指標的協調數據呈現多個表格和圖表
4. 使業務用戶能夠利用高精準數據創建自己的報告,無需IT部門參與
5. 通過清洗和匹配的數據減少合規性管理的人工檢查和審計
6. 利用完整財務數據直接從商業智能報告開具發票和帳單
OLAP分析
OLAP使用戶能夠即時以交互方式對相關數據子集進行“切片和切塊”。同時,OLAP功能,比如向上鑽取、向下鑽取、或任意挖掘(跨業務維度)、透視、排序、篩選、以及翻閱,可用於提供關於績效的基本詳細信息。最為重要的是它能夠回答存在的任何業務問題。這意味著調查深入到單個或多個數據倉庫中可用的最原子級別的詳細信息。
數據質量會影響OLAP分析,因為用戶和組織需要:
1. 通過對目標數據的完全訪問在所有維度中任意鑽取以進行深入調查
2. 通過設置好格式的一致數據將OLAP輕鬆應用於任何維度子集
3. 利用一致的基本數據對象最大限地減少衝突報告,確保交互性
4. 利用多個維度的正確數據執行用戶驅動的適時分析
5. 提供更新的同步數據來處理事務級數據分析
高級/預測分析
高級和預測分析使富有經驗的用戶能夠充分調查和發現特定業務績效背後的詳細信息並使用該信息預測遠期效果。此方法可能涉及高級統計分析和數據挖掘功能。為了推動積極決策和改進對潛在商業威脅的姿態,預測分析可能包括假設測試,客戶流失預測,供應和需求預測,以及客戶評分。預測建模可用於預測各種業務活動及相關效果。
數據質量會影響高級和預測分析,因為用戶會尋求:
1. 為可定製報告創建跨越任何數據元素的報告過濾標準
2. 為標準化數據格式搜索模式和預測洞察力以促進積極決策
3. 通過一致數據獲得信心,找出相互依存的趨勢和預期成果
4. 對準確數據採用多變數復原和其他技術,以實現更好的預測
5. 在無數據重複的前提下定製數據分組,最大限度減少衝突
6. 使用經認證的數據檢驗假設並使用統計、財務和數字函數
通知和警報
使用電子郵件、瀏覽器、網路伺服器和印表機、PDA或門戶網站時,通過通知和警報在廣泛的用戶觸點間主動共享信息。通過及時交付目標信息,關鍵相關人士和決策者可以識別潛在的機會領域並發現要採取措施的問題領域。這種“一線”BI傳輸機制使組織能夠保持協調一致,與業務風險和機會並進,同時事件仍將保持新鮮和有意義以保證響應。
在此領域,數據質量會影響組織,因為組織會努力:
1. 從任何和所有數據源向最廣泛的用戶接觸點發布警報
2. 確保標準化及非衝突數據集上各種訂閱類型的高吞吐量
3. 使用戶能夠打開附件或點擊鏈接,同時呈現一致、集成的數據
4. 通過預先評定並核准的數據質量來降低發布錯誤警報和通知的風險
5. 允許在多個事件數據符合特定闕值時實時觸發警報
6. 利用經驗證的數據進行內容個性化和組關聯