數據質量管理
數據質量管理
數據質量管理(Data Quality Management),是指對數據從計劃、獲取、存儲、共享、維護、應用、消亡生命周期的每個階段里可能引發的各類數據質量問題,進行識別、度量、監控、預警等一系列管理活動,並通過改善和提高組織的管理水平使得數據質量獲得進一步提高。
數據質量管理是循環管理過程,其終極目標是通過可靠的數據提升數據在使用中的價值,並最終為企業贏得經濟效益。
由於數據清洗(DataCleaning)工具通常簡單地被稱為數據質量(Data Quality)工具,因此很多人認為數據質量管理,就是修改數據中的錯誤、是對錯誤數據和垃圾數據進行清理。這個理解是片面的,其實數據清洗只是數據質量管理中的一步。數據質量管理(DQM),不僅包含了對數據質量的改善,同時還包含了對組織的改善。針對數據的改善和管理,主要包括數據分析、數據評估、數據清洗、數據監控、錯誤預警等內容;針對組織的改善和管理,主要包括確立組織數據質量改進目標、評估組織流程、制定組織流程改善計劃、制定組織監督審核機制、實施改進、評估改善效果等多個環節。
任何改善都是建立在評估的基礎上,知道問題在哪才能實施改進。通常數據質量評估和管理評估需通過以下幾個維度衡量。
完整性 Completeness:完整性用於度量哪些數據丟失了或者哪些數據不可用。
規範性 Conformity:規範性用於度量哪些數據未按統一格式存儲。
一致性 Consistency:一致性用於度量哪些數據的值在信息含義上是衝突的。
準確性 Accuracy:準確性用於度量哪些數據和信息是不正確的,或者數據是超期的。
唯一性 Uniqueness:唯一性用於度量哪些數據是重複數據或者數據的哪些屬性是重複的。
關聯性 Integration:關聯性用於度量哪些關聯的數據缺失或者未建立索引。
配置管理 Config Management:此維度用於度量數據在其生命周期內的一切資源是否得到了控制和規範,即數據的計劃、產生、變更直至消亡的過程中,與數據相關的計劃、規範、描述是否收到控制。評估指標包括:評估配置項的細化粒度、評估基線準確度和頻度以及變更流程是否合理完善等。
培訓 Training:此維度用於度量數據的生產和使用者在數據生命周期內的一切活動中是否經過了知識和技能的培訓、培訓效果是否滿足崗位需要;受訓的知識和技能是否經過審核和確認,受訓的內容是否與企業文化和價值觀一致;培訓流程是否合理完善等;
驗證和確認 Verify & Validation:此維度用於度量數據在其生命周期內是否得到驗證和確認。評估內容包括是否通過驗證流程確保工作產品(數據)滿足指定的要求、是否通過“確認”流程保證工作產品(數據)在計劃的環境中滿足使用的要求;“驗證”和“確認”的流程是否完善;
監督和監控 Monitoring:此維度用於度量產生和使用數據的流程在數據的整個生命周期內是否真正受控。脫離監控的信息、技術、計劃、流程、制度,會導致數據質量低下。監督和監控的流程是否完善。
影響數據質量的因素主要來源於四方面:信息因素、技術因素、流程因素和管理因素。
數據質量管理
技術因素:主要是指由於具體數據處理的各技術環節的異常造成的數據質量問題。數據質量問題的產生環節主要包括數據創建、數據獲取、數據傳輸、數據裝載、數據使用、數據維護等方面的內容。
流程因素:是指由於系統作業流程和人工操作流程設置不當造成的數據質量問題,主要來源於系統數據的創建流程、傳遞流程、裝載流程、使用流程、維護流程和稽核流程等各環節。
管理因素:是指由於人員素質及管理機制方面的原因造成的數據質量問題。如人員培訓、人員管理、培訓或者獎懲措施不當導致的管理缺失或者管理缺陷。
熟悉六西格瑪管理的人應該知道,六西格瑪強調以事實驅動管理。但事實是用數據說話。映射到六西格瑪管理方法,MTC-DQM推薦採用十步數據質量管理方法。
數據質量管理
2. 收集、匯總、分析有關形式和信息環境。設計捕獲和評估的方案。
3. 按照數據質量維度對數據質量進行評估。
4. 使用各種技術評估劣質數據對業務產生的影響。
5. 確定影響數據質量的真實原因,並區分這些原因的影響的數據質量的級別。
6. 最終確定行動的建議,為數據質量改善制定方案,包括數據級和組織級的。
7. 建立數據錯誤預防方案,並改正當前數據問題。
8. 通過改進組織管理流程,最大限度控制由管理上的缺陷造成的數據質量問題。
9. 對數據和管理實施監控,維護已改善的效果。
10.溝通貫穿管理始終,循環的評估組織管理流程,以確保數據質量改善的成果得到有效保持。