數據倉庫
提供所有數據支持的戰略集合
數據倉庫(Data Warehouse,DW)長期儲存在計算機內,有組織、可共享的數據集合,是為決策支持系統提供基礎數據的分析型資料庫。數據倉庫是為企業所有級別的決策制定過程,提供所有類型數據支持的戰略集合。它是單個數據存儲,出於分析性報告和決策支持目的而創建,為需要業務智能的企業,提供指導業務流程改進、監視時間、成本、質量以及控制。
數據倉庫
數據倉庫,由數據倉庫之父比爾·恩門(Bill Inmon)於1990年提出,主要功能仍是將組織透過資訊系統之聯機事務處理(OLTP)經年累月所累積的大量資料,透過數據倉庫理論所特有的資料儲存架構,做有系統的分析整理,以利各種分析方法如聯機分析處理(OLAP)、數據挖掘(Data Mining)之進行,並進而支持如決策支持系統(DSS)、主管資訊系統(EIS)之創建,幫助決策者能快速有效的自大量資料中,分析出有價值的資訊,以利決策擬定及快速回應外在環境變動,幫助建構商業智能(BI)。
數據倉庫之父比爾·恩門(Bill Inmon)在1991年出版的“Building the Data Warehouse”(《建立數據倉庫》)一書中所提出的定義被廣泛接受——數據倉庫(Data Warehouse)是一個面向主題的(Subject Oriented)、集成的(Integrated)、相對穩定的(Non-Volatile)、反映歷史變化(Time Variant)的數據集合,用於支持管理決策(Decision Making Support)。
1、數據倉庫是面向主題的;操作型資料庫的數據組織面向事務處理任務,而數據倉庫中的數據是按照一定的主題域進行組織。主題是指用戶使用數據倉庫進行決策時所關心的重點方面,一個主題通常與多個操作型信息系統相關。
數據倉庫的核心工具
數據倉庫中的數據是在對原有分散的資料庫數據抽取、清理的基礎上經過系統加工、匯總和整理得到的,必須消除源數據中的不一致性,以保證數據倉庫內的信息是關於整個企業的一致的全局信息。
數據倉庫的數據主要供企業決策分析之用,所涉及的數據操作主要是數據查詢,一旦某個數據進入數據倉庫以後,一般情況下將被長期保留,也就是數據倉庫中一般有大量的查詢操作,但修改和刪除操作很少,通常只需要定期的載入、刷新。
數據倉庫中的數據通常包含歷史信息,系統記錄了企業從過去某一時點(如開始應用數據倉庫的時點)到當前的各個階段的信息,通過這些信息,可以對企業的發展歷程和未來趨勢做出定量分析和預測。
3、數據倉庫是不可更新的,數據倉庫主要是為決策分析提供數據,所涉及的操作主要是數據的查詢;
4、數據倉庫是隨時間而變化的,傳統的關係資料庫系統比較適合處理格式化的數據,能夠較好的滿足商業商務處理的需求。穩定的數據以只讀格式保存,且不隨時間改變。
5、匯總的。操作性數據映射成決策可用的格式。
6、大容量。時間序列數據集合通常都非常大。
7、非規範化的。Dw數據可以是而且經常是冗餘的。
8、元數據。將描述數據的數據保存起來。
9、數據源。數據來自內部和外部的非集成操作系統。
數據倉庫中的數據組織具有不同的綜合級別,一般稱之為“ 粒度”。粒度越大,表示細節程度越低,綜合程度越高。
數據倉庫,是在資料庫已經大量存在的情況下,為了進一步挖掘數據資源、為了決策需要而產生的,它並不是所謂的“大型資料庫”。數據倉庫的方案建設的目的,是為前端查詢和分析作為基礎,由於有較大的冗餘,所以需要的存儲也較大。為了更好地為前端應用服務,數據倉庫往往有如下幾點要求:
數據倉庫
2.數據質量。數據倉庫所提供的各種信息,需要數據準確。但由於數據倉庫流程通常分為多個步驟,包括數據清洗,裝載,查詢,展現等等,複雜的架構會更多層次,如果數據源有臟數據或者代碼不嚴謹,數據就可能失真,可能導致客戶看到錯誤的信息分析出錯誤的決策,造成損失。
3.擴展性。之所以有的大型數據倉庫系統架構設計複雜,是因為考慮到了未來3-5年的擴展性,這樣的話,未來不用太快花錢去重建數據倉庫系統,就能很穩定運行。主要體現在數據建模的合理性,數據倉庫方案中多出一些中間層,使海量數據流有足夠的緩衝,不會因為數據量太大,導致無法運行。
從上面的介紹中可以看出,數據倉庫技術可以將企業多年積累的數據喚醒,不僅為企業管理好這些海量數據,而且挖掘數據潛在的價值,從而成為通信企業運營維護系統的亮點之一。廣義地說,基於數據倉庫的決策支持系統由三個部件組成:數據倉庫技術,聯機分析處理技術和數據挖掘技術,其中數據倉庫技術是系統的核心。
數據倉庫
4.面向主題
操作型資料庫的數據組織面向事務處理任務,各個業務系統之間各自分離,而數據倉庫中的數據是按照一定的主題域進行組織的。主題是與傳統資料庫的面嚮應用相對應的,是一個抽象概念,是在較高層次上將企業信息系統中的數據綜合、歸類並進行分析利用的抽象。每一個主題對應一個宏觀的分析領域。數據倉庫排除對於決策無用的數據,提供特定主題的簡明視圖。
信息技術與數據智能大環境下,數據倉庫在軟硬體領域、Internet 和企業內部網解決方案以及資料庫方面提供了許多經濟高效的計算資源,可以保存極大量的數據供分析使用,且允許使用多種數據訪問技術。
開放系統技術使得分析大量數據的成本趨於合理,並且硬體解決方案也更為成熟。在數據倉庫應用中主要使用的技術如下:
并行
計算的硬體環境、操作系統環境、資料庫管理系統和所有相關的資料庫操作、查詢工具和技術、應用程序等各個領域都可以從并行的最新成就中獲益。
分區
分區功能使得支持大型表和索引更容易,同時也提高了數據管理和查詢性能。
數據壓縮
數據壓縮功能降低了數據倉庫環境中通常需要的用於存儲大量數據的磁碟系統的成本,新的數據壓縮技術也已經消除了壓縮數據對查詢性能造成的負面影響。
從資料庫到數據倉庫
企業的數據處理大致分為兩類:一類是操作型處理,也稱為聯機事務處理,它是針對具體業務在資料庫聯機的日常操作,通常對少數記錄進行查詢、修改。另一類是分析型處理,一般針對某些主題的歷史數據進行分析,支持管理決策。
兩者具有不同的特徵,主要體現在以下幾個方面。
1、處理性能
日常業務涉及頻繁、簡單的數據存取,因此對操作型處理的性能要求是比較高的,需要資料庫能夠在很短時間內做出反應。
2、數據集成
企業的操作型處理通常較為分散,傳統資料庫面嚮應用的特性使數據集成困難。
3、數據更新
操作型處理主要由原子事務組成,數據更新頻繁,需要并行控制和恢復機制。
4、數據時限
操作型處理主要服務於日常的業務操作。
5、數據綜合
操作型處理系統通常只具有簡單的統計功能。
數據倉庫
這裡的主題,是指用戶使用數據倉庫進行決策時所關心的重點方面,如:收入、客戶、銷售渠道等;所謂面向主題,是指數據倉庫內的信息是按主題進行組織的,而不是像業務支撐系統那樣是按照業務功能進行組織的。
集成,是指數據倉庫中的信息不是從各個業務系統中簡單抽取出來的,而是經過一系列加工、整理和匯總的過程,因此數據倉庫中的信息是關於整個企業的一致的全局信息。
隨時間變化,是指數據倉庫內的信息並不只是反映企業當前的狀態,而是記錄了從過去某一時點到當前各個階段的信息。
資料庫安全
計算機攻擊、內部人員違法行為,以及各種監管要求,正促使組織尋求新的途徑來保護其在商業資料庫系統中的企業和客戶數據。
您可以採取八個步驟保護數據倉庫並實現對關鍵法規的遵從。
1. 發現
使用發現工具發現敏感數據的變化。
2.漏洞和配置評估
評估資料庫配置,確保它們不存在安全漏洞。這包括驗證在操作系統上安裝資料庫的方式(比如檢查資料庫配置文件和可執行程序的文件許可權),以及驗證資料庫自身內部的配置選項(比如多少次登錄失敗之後鎖定帳戶,或者為關鍵表分配何種許可權)。
3. 加強保護
通過漏洞評估,刪除不使用的所有功能和選項。
4. 變更審計
通過變更審計工具加強安全保護配置,這些工具能夠比較配置的快照(在操作系統和資料庫兩個級別上),並在發生可能影響資料庫安全的變更時,立即發出警告。
5. 資料庫活動監控(DAM)
通過及時檢測入侵和誤用來限制信息暴露,實時監控資料庫活動。
6. 審計
必須為影響安全性狀態、數據完整性或敏感數據查看的所有資料庫活動生成和維護安全、防否認的審計線索。
7.身份驗證、訪問控制和授權管理
必須對用戶進行身份驗證,確保每個用戶擁有完整的責任,並通過管理特權來限制對數據的訪問。
8. 加密
使用加密來以不可讀的方式呈現敏感數據,這樣攻擊者就無法從資料庫外部對數據進行未授權訪問。
如何應對監控需求
數據,作為企業核心資產,越來越受到企業的關注,一旦發生非法訪問、數據篡改、數據盜取,將給企業帶來巨大損失。資料庫作為數據的核心載體,其安全性就更加重要。
面對資料庫的安全問題,企業常常遇到以下主要挑戰:資料庫被惡意訪問、攻擊、甚至遭到數據偷竊,而您不能及時地發現這些惡意的操作;不了解數據使用者對資料庫的訪問細節,從而不能保證您對數據安全的管理;
信息安全同樣會帶來審計問題,當今全球對合規/ 審計要求越來越嚴格,由於不滿足合規要求而導致處罰的事件屢見不鮮。美國《薩班斯法案》的強制性要求曾導致2007年7月5日中國第一家海外上市公司—華晨中國汽車控股有限公司從美國紐約證券交易所退市。
有關信息安全的合規/審計要求,中國政府也進行了大量的強化工作,例如,為了加強商業銀行信息科技風險管理,銀監會出台了《商業銀行信息科技風險管理指引》規則,中國政府——財政部、證監會、銀監會、保監會及審計署等五部委會聯合發布“中國版薩班尼斯-奧克斯利法案(以下簡稱‘C-SOX法案’)”——《企業內部控制基本規範》。
面對合規/審計要求,企業往往面臨以下挑戰:
·不能做到持續性審計
·審計並不規範
用戶審計的內容和表格主要是根據外部審計人員要求和內部安全管理要素來考慮,這些審計工作的好壞基本上取決於DBA和信息安全審計人員的經驗和技能,這些不能有效成為公司規範和滿足外部審計要求。
·資料庫管理員權責沒有完全區分開,導致審計效果問題
資料庫管理和審計原始數據的收集實際上都是由DBA來做的,這就導致了DBA的權責不明確,DBA沒辦法客觀審計自己所做的工作,儘管用戶設置了信息安全審計人員,但該角色的審計工作的部分證據建立在DBA初步審計基礎上,因此審計效果與可靠性存問題。
·審計並不完整
人工審計需要面對海量的日誌,不可能對所有數據進行細緻審計;審計報告就未必能滿足
100%可見性。
為了滿足企業的信息安全、合規、審計等需求,IBM公司推出了“CARS”企業信息架構,該架構主要從“法規遵從”(Compliance)、“信息可用”(Availability)、“信息保留”(Retention)、“信息安全”(Security) 四個方面進行了全面的滿足和保護。不僅如此,IBM Guardium資料庫安全、合規、審計、監控解決方案的推出,針對了“法規遵從”和“信息安全”進行了專項治理和加強。
Guardium資料庫安全、合規、審計、監控解決方案,以軟硬體一體伺服器的方式,大大增強資料庫安全性,滿足並方便審計工作,提升性能,並簡化了安裝部署工作。可以防止對資料庫的破壞、惡意訪問、偷竊數據,可幫助判斷客戶關鍵敏感的數據在什麼地方;誰在使用這些數據;控制對資料庫中數據的訪問,並可監控特權用戶;幫助企業強制執行安全規範;檢查薄弱環節、漏洞,防止對資料庫配置的改動;滿足合規/審計的要求,並可簡化內部和外部審計、合規的過程並使其自動化,增強運作效率;管理安全的複雜性。
農業、食品和化工集團Agrofert 發現,隨著企業的快速發展,旗下子公司已經有 160 多個不同的系統在運行。很難提供統一的報告,而且支持和許可成本也不斷上升。如果每新購一個系統就擴大一次基礎架構,顯然不是一種可以擴展的戰略。Agrofert採用 SAP ERP 應用程序作為其部分子公司的共享服務,目的是將其逐漸推廣到整個企業,這些應用程序在兩個地點的 IBM Power Systems 伺服器上集中管理。公司從混合資料庫環境(包括 Oracle 和 Microsoft SQL Server)遷移到 IBM DB2,將 IBM DB2 作為其標準資料庫,同時還為關鍵的業務數據部署集中的存儲系統。遷移后,不再需要本地系統,能夠極大地降低管理、支持和許可成本;藉助IBM DB2 可降低許可費用,簡化管理並減少員工教育及培訓;整合的存儲有助於降低成本,而 IBM DB2 深度壓縮將會降低總體存儲需求;總成本估計減少 20%。
數據倉庫
最新的集中式ERP系統是設計用來處理商品管理、存貨管理和相關業務過程的。但是Disney 也希望平衡財務和業務智能(BI)報告和業務分析系統,這意味著建立一個新的數據倉庫。Disney在該項目中所使用的一些產品包括SAS分析軟體和Teradata數據倉庫技術。最新的集中式ERP、數據倉庫和分析系統正幫助Disney更好地管理存貨、分析銷售額和預報特定領域的商品需求。
數據倉庫具有改變業務的威力。它能幫助公司深入了解客戶行為,預測銷售趨勢,確定某一組客戶或產品的收益率。儘管如此,數據倉庫的實現卻是一個長期的、充滿風險的過程。由 DM Review 發布的一項網路調查顯示, 51% 受訪者認為創建數據倉庫的頭號障礙是缺乏準確的數據。而其中最重要的一點是無法實時更新所有的數據。
有六項指導原則可幫助企業快速實現數據倉庫計劃並評估其過程:
·簡化需求收集和設計。
公司通常會難以確定,哪些數據重要,哪些使得他們無法利用有價值的非結構化信息來驅動關鍵業務流程。組織應該檢查一下 IT 經理是否深入理解業務計劃以及支持計劃所需的信息。例如源數據在哪裡?需要怎樣的轉換能讓其為關鍵應用程序所用?
·支持業務和 IT 用戶協作。
不完整、過時或不準確的數據會導致可信信息的缺乏。要注意公司是否有一個業務術語表供用戶查看、用於協作並根據他們集體業務視角進行調整?
·避免代價高昂的低級錯誤和返工。
明確公司是否擁有一個包含界定完善的數據模型的實施策略,應用程序提供信息?
·識別匹配信息,創建單一視圖。
同一事實的多個版本會導致在管理用戶、產品和合作夥伴關係方面出現問題——增加違反法規遵從性的風險。
·使用最快的、最具伸縮性的方法進行轉換和發布。
明確公司是否有能夠利用并行處理並重用之前轉換成果的自動化過程?公司系統能否及時按需將數據發布給用戶和應用程序?
·通過信息服務擴展信息可訪問性。
明確企業是否能真正將信息用作共有財產?IT 專家能否保存好這些財產並讓被授權者使用?信息能否在合適的時間發布到合適的地方和合適的場景下?
數據倉庫
數據倉庫系統是一個信息提供平台,他從業務處理系統獲得數據,主要以星型模型和雪花模型進行數據組織,並為用戶提供各種手段從數據中獲取信息和知識。
從功能結構劃分,數據倉庫系統至少應該包含數據獲取(Data Acquisition)、數據存儲(Data Storage)、數據訪問(Data Access)三個關鍵部分。
企業數據倉庫的建設,是以現有企業業務系統和大量業務數據的積累為基礎。數據倉庫不是靜態的概念,只有把信息及時交給需要這些信息的使用者,供他們做出改善其業務經營的決策,信息才能發揮作用,信息才有意義。而把信息加以整理歸納和重組,並及時提供給相應的管理決策人員,是數據倉庫的根本任務。因此,從產業界的角度看,數據倉庫建設是一個工程,是一個過程。
數據源是數據倉庫系統的基礎,是整個系統的數據源泉。通常包括企業內部信息和外部信息。內部信息包括存放於RDBMS中的各種業務處理數據和各類文檔數據。外部信息包括各類法律法規、市場信息和競爭對手的信息等等;
數據存儲和管理
數據倉庫的後台工具是整個數據倉庫系統的核心。數據倉庫的真正關鍵是數據的存儲和管理。數據倉庫的組織管理方式決定了它有別於傳統資料庫,同時也決定了其對外部數據的表現形式。要決定採用什麼產品和技術來建立數據倉庫的核心,則需要從數據倉庫的技術特點著手分析。數據倉庫的後台工具針對現有各業務系統的數據,對數據進行抽取、清洗,並對各種數據源進行轉換,然後裝載到數據倉庫中,同時維護數據倉庫和數據源數據的一致性。數據倉庫按照數據的覆蓋範圍可以分為企業級數據倉庫和部門級數據倉庫(通常稱為數據集市)。
OLAP伺服器
OLAP伺服器對分析需要的數據進行有效集成,按多維模型予以組織,以便進行多角度、多層次的分析,並發現趨勢。其具體實現可以分為:ROLAP(關係型在線分析處理)、MOLAP(多維在線分析處理)和HOLAP(混合型線上分析處理)。ROLAP基本數據和聚合數據均存放在RDBMS之中;MOLAP基本數據和聚合數據均存放於多維資料庫中;HOLAP基本數據存放於RDBMS之中,聚合數據存放於多維資料庫中。
前端工具主要包括各種報表工具、查詢工具、數據分析工具、數據挖掘工具和數據挖掘及各種基於數據倉庫或數據集市的應用開發工具。其中數據分析工具主要針對OLAP伺服器,報表工具、數據挖掘工具主要針對數據倉庫。
IBM數據倉庫解決方案產品組成
資料庫是整個數據倉庫環境的核心,是數據存放的地方和提供對數據檢索的支持。相對於操縱型資料庫來說其突出的特點是對海量數據的支持和快速的檢索技術。
元數據是描述數據倉庫內數據的結構和建立方法的數據。可將其按用途的不同分為兩類,技術元數據和商業元數據。
技術元數據是數據倉庫的設計和管理人員用於開發和日常管理數據倉庫使用的數據。包括:數據源信息;數據轉換的描述;數據倉庫內對象和數據結構的定義;數據清理和數據更新時用的規則;源數據到目的數據的映射;用戶訪問許可權,數據備份歷史記錄,數據導入歷史記錄,信息發布歷史記錄等。
商業元數據從商業業務的角度描述了數據倉庫中的數據。包括:業務主題的描述,包含的數據、查詢、報表;
元數據為訪問數據倉庫提供了一個信息目錄(informationdirectory),這個目錄全面描述了數據倉庫中都有什麼數據、這些數據怎麼得到的、和怎麼訪問這些數據。是數據倉庫運行和維護的中心,數據倉庫伺服器利用他來存貯和更新數據,用戶通過他來了解和訪問數據。
為了特定的應用目的或應用範圍,而從數據倉庫中獨立出來的一部分數據,也可稱為部門數據或主題數據(subjectarea)。在數據倉庫的實施過程中往往可以從一個部門的數據集市著手,以後再用幾個數據集市組成一個完整的數據倉庫。需要注意的就是在實施不同的數據集市時,同一含義的欄位定義一定要相容,這樣在以後實施數據倉庫時才不會造成大麻煩。
國外知名的Garnter關於數據集市產品報告中,位於第一象限的敏捷商業智能產品有QlikView, Tableau和SpotView,都是全內存計算的數據集市產品,在大數據方面對傳統商業智能產品巨頭形成了挑戰。國內BI產品起步較晚,知名的敏捷型商業智能產品有PowerBI, 永洪科技的Z-Suite,SmartBI,FineBI商業智能軟體等,其中永洪科技的Z-Data Mart是一款熱內存計算的數據集市產品。國內的德昂信息也是一家數據集市產品的系統集成商。
安全和特權管理;跟蹤數據的更新;數據質量檢查;管理和更新元數據;審計和報告數據倉庫的使用和狀態;刪除數據;複製、分割和分發數據;備份和恢復;存儲管理。
把數據倉庫中的數據或其他相關的數據發送給不同的地點或用戶。基於Web的信息發布系統是對付多用戶訪問的最有效方法。
為用戶訪問數據倉庫提供手段。有數據查詢和報表工具;應用開發工具;管理信息系統(EIS)工具;在線分析(OLAP)工具;數據挖掘工具。
有別於一般聯機交易處理(OLTP)系統,數據模型設計是一個數據倉庫設計的地基,當前兩大主流理論分別為採用正規方式(normalized approach)或多維方式(dimensional approach)進行數據模型設計。數據模型可以分為邏輯與實體數據模型。邏輯數據模型陳述業務相關數據的關係,基本上是一種與資料庫無關的結構設計,通常均會採用正規方式設計,主要精神是從企業業務領域的角度及高度訂出subject area model,再逐步向下深入到entities、attributes,在設計時不會考慮未來採用的資料庫管理系統,也不需考慮分析性能問題。而實體數據模型則與資料庫管理系統有關,是建置在該系統上的數據架構,故設計時需考慮數據類型(data type)、空間及性能相關的議題。實體數據模型設計,則較多有採用正規方式或多維方式的討論,但從實務上來說,不執著於理論,能與業務需要有最好的搭配,才是企業在建置數據倉庫時的正確考量。
數據倉庫的建制不僅是資訊工具技術面的運用,在規劃和執行方面更需對產業知識、行銷管理、市場定位、策略規劃等相關業務有深入的了解,才能真正發揮數據倉庫以及後續分析工具的價值,提升組織競爭力。
1)選擇合適的主題(所要解決問題的領域)
2)明確定義事實表
3)確定和確認維
4)選擇事實表
5)計算並存儲事實表中的衍生數據段
6)轉換維表
7)資料庫數據採集
8)根據需求刷新維表
9)確定查詢優先順序和查詢模式。
硬體平台:數據倉庫的硬碟容量通常要是操作資料庫硬碟容量的2-3倍。通常大型機具有更可靠的性能和和穩定性,也容易與歷史遺留的系統結合在一起;而PC伺服器或UNIX伺服器更加靈活,容易操作和提供動態生成查詢請求進行查詢的能力。選擇硬體平台時要考慮的問題:是否提供并行的I/O吞吐?對多CPU的支持能力如何?
數據倉庫DBMS:他的存儲大數據量的能力、查詢的性能、和對并行處理的支持如何。
網路結構:數據倉庫的實施在那部分網路段上會產生大量的數據通信,需不需要對網路結構進行改進。
數據倉庫的數據建模大致分為四個階段:
1. 業務建模,這部分建模工作,主要包含以下幾個部分:
• 劃分整個單位的業務,一般按照業務部門的劃分,進行各個部分之間業務工作的界定,理清各業務部門之間的關係。
• 深入了解各個業務部門的內具體業務流程並將其程序化。
• 提出修改和改進業務部門工作流程的方法並程序化。
• 數據建模的範圍界定,整個數據倉庫項目的目標和階段劃分。
2. 領域概念建模,這部分得建模工作,主要包含以下幾個部分:
• 抽取關鍵業務概念,並將之抽象化。
• 將業務概念分組,按照業務主線聚合類似的分組概念。
• 細化分組概念,理清分組概念內的業務流程並抽象化。
• 理清分組概念之間的關聯,形成完整的領域概念模型。
3. 邏輯建模,這部分的建模工作,主要包含以下幾個部分:
• 業務概念實體化,並考慮其具體的屬性
• 事件實體化,並考慮其屬性內容
• 說明實體化,並考慮其屬性內容
4. 物理建模,這部分得建模工作,主要包含以下幾個部分:
• 針對特定物理化平台,做出相應的技術調整
• 針對模型的性能考慮,對特定平台作出相應的調整
• 針對管理的需要,結合特定的平台,做出相應的調整
• 生成最後的執行腳本,並完善之。
1)收集和分析業務需求
數據倉庫價值曲線
3)定義數據源
4)選擇數據倉庫技術和平台
5)從操作型資料庫中抽取、凈化、和轉換數據到數據倉庫
6)選擇訪問和報表工具
7)選擇資料庫連接軟體
8)選擇數據分析和數據展示軟體
9)更新數據倉庫
1)數據轉換工具要能從各種不同的數據源中讀取數據。
2)支持平面文件、索引文件、和legacyDBMS。
3)能以不同類型數據源為輸入整合數據。
4)具有規範的數據訪問介面
5)最好具有從數據字典中讀取數據的能力
6)工具生成的代碼必須是在開發環境中可維護的
7)能只抽取滿足指定條件的數據,和源數據的指定部分
8)能在抽取中進行數據類型轉換和字符集轉換
9)能在抽取的過程中計算生成衍生欄位
10)能讓數據倉庫管理系統自動調用以定期進行數據抽取工作,或能將結果生成平面文件
11)必須對軟體供應商的生命力和產品支持能力進行仔細評估
主要數據抽取工具供應商:Prismsolutions.Carleton'sPASSPORT.InformationBuildersInc.'s
EDA/SQL.SASInstituteInc.
一般問題 (不完全是技術或文化,但很重要) 包括但不限於以下幾點:
業務用戶想要執行什麼樣的分析?
你現在收集的數據需要支持那些分析嗎?
數據在哪兒?
數據的清潔度如何?
相似的數據有多個數據源嗎?
什麼樣的結構最適合核心數據倉庫 (例如維度或關係型)?
技術問題包括但不限於以下幾點:
在你的網路中要流通多少數據?它能處理嗎?
需要多少硬碟空間?
硬碟存儲需要多快?
你會使用固態還是虛擬化的存儲?
每一家公司都有自己的數據。並且,許多公司在計算機系統中儲存有大量的數據,記錄著企業購買、銷售、生產過程中的大量信息和客戶的信息。通常這些數據都儲存在許多不同的地方。
使用數據倉庫之後,企業將所有收集來的信息存放在一個唯一的地方——數據倉庫。倉庫中的數據按照一定的方式組織,從而使得信息容易存取並且有使用價值。
已經開發出一些專門的軟體工具,使數據倉庫的過程實現可以半自動化,幫助企業將數據導入數據倉庫,並使用那些已經存入倉庫的數據。
數據倉庫給組織帶來了巨大的變化。數據倉庫的建立給企業帶來了一些新的工作流程,其他的流程也因此而改變。
數據倉庫為企業帶來了一些“以數據為基礎的知識”,它們主要應用於對市場戰略的評價,和為企業發現新的市場商機,同時,也用來控制庫存、檢查生產方法和定義客戶群。
通過數據倉庫,可以建立企業的數據模型,這對於企業的生產與銷售、成本控制與收支分配有著重要的意義,極大的節約了企業的成本,提高了經濟效益,同時,用數據倉庫可以分析企業人力資源與基礎數據之間的關係,可以用於返回分析,保障人力資源的最大化利用,亦可以進行人力資源績效評估,使得企業管理更加科學合理。數據倉庫將企業的數據按照特定的方式組織,從而產生新的商業知識,並為企業的運作帶來新的視角。
計算機發展的早期,人們已經提出了建立數據倉庫的構想。“數據倉庫”一詞最早是在1990年,由Bill Inmon先生提出的,其描述如下:數據倉庫是為支持企業決策而特別設計和建立的數據集合。
企業建立數據倉庫是為了填補現有數據存儲形式已經不能滿足信息分析的需要。數據倉庫理論中的一個核心理念就是:事務型數據和決策支持型數據的處理性能不同。
企業在它們的事務操作收集數據。在企業運作過程中:隨著定貨、銷售記錄的進行,這些事務型數據也連續的產生。為了引入數據,我們必須優化事務型資料庫。
處理決策支持型數據時,一些問題經常會被提出:哪類客戶會購買哪類產品?促銷后銷售額會變化多少?價格變化后或者商店地址變化后銷售額又會變化多少呢?在某一段時間內,相對其他產品來說哪類產品特別容易賣呢?哪些客戶增加了他們的購買額?哪些客戶又削減了他們的購買額呢?
事務型資料庫可以為這些問題作出解答,但是它所給出的答案往往並不能讓人十分滿意。在運用有限的計算機資源時常常存在著競爭。在增加新信息的時候我們需要事務型資料庫是空閑的。而在解答一系列具體的有關信息分析的問題的時候,系統處理新數據的有效性又會被大大降低。另一個問題就在於事務型數據總是在動態的變化之中的。決策支持型處理需要相對穩定的數據,從而問題都能得到一致連續的解答。
數據倉庫的解決方法包括:將決策支持型數據處理從事務型數據處理中分離出來。數據按照一定的周期(通常在每晚或者每周末),從事務型資料庫中導入決策支持型資料庫——既“數據倉庫”。數據倉庫是按回答企業某方面的問題來分“主題”組織數據的,這是最有效的數據組織方式。
數據倉庫基本體系結構
而另外一些專家則認為數據集市的建立並不需要首先建立一個數據倉庫。在這個模型中,數據直接由事務型資料庫轉入數據集市中。一個公司可能建立有多個數據集市,而彼此之間毫無聯繫。
這種不在建立數據倉庫的基礎上創建數據集市的方式會更便宜、更快速,因為它的規模更加易於管理。
第二種觀點的缺陷在於無法實現最初創建數據倉庫的最主要的目的——將企業所有的數據統一為一致的格式。現有的事務處理系統的數據往往是不一致、冗餘的。如果首先建立起一個全公司範圍的數據倉庫,組織就能夠獲得一個統一關於企業的活動和客戶的知識庫。如果先建立起一個個獨立的數據集市,那麼數據倉庫的諸多優勢都能夠得以實現,但是企業遠遠無法做到對數據的一致的儲存。
二者的聯繫:
數據倉庫的出現,並不是要取代資料庫。大部分數據倉庫還是用關係資料庫管理系統來管理的。可以說,資料庫、數據倉庫相輔相成、各有千秋。
二者的區別:
1、出發點不同:資料庫是面向事務的設計;數據倉庫是面向主題設計的。
2、存儲的數據不同:資料庫一般存儲在線交易數據;數據倉庫存儲的一般是歷史數據。
3、設計規則不同:資料庫設計是盡量避免冗餘,一般採用符合範式的規則來設計;數據倉庫在設計是有意引入冗餘,採用反範式的方式來設計。
4、提供的功能不同:資料庫是為捕獲數據而設計,數據倉庫是為分析數據而設計,
5、基本元素不同:資料庫的基本元素是事實表,數據倉庫的基本元素是維度表。
6、容量不同:資料庫在基本容量上要比數據倉庫小的多。
7、服務對象不同:資料庫是為了高效的事務處理而設計的,服務對象為企業業務處理方面的工作人員;數據倉庫是為了分析數據進行決策而設計的,服務對象為企業高層決策人員。
在整個系統中,數據倉庫居於核心地位,是數據分析和挖掘的基礎;數據倉庫管理系統負責管理系統的運轉,是整個系統的引擎;而數據倉庫工具則是整個系統發揮作用的關鍵,只有通過高效的工具,數據倉庫才能真正把數據轉化為信息和知識,為企業和部門創造價值發揮作用。
數據倉庫系統是一種解決方案,不是可以買到的現成產品。建立數據倉庫系統是一項長期、艱巨和有風險的信息系統工程。目前,數據倉庫技術、聯機分析處理技術和數據挖掘技術已經成為企業商務智能的三大技術支柱,並在金融、保險、稅務、零售、 航空及醫療等行業獲得廣泛應用。
Sybase - IQ
Oracle - Oracle Database / Oracle Exadata
TeraData - TeraData
IBM - Red Brick
Netezza - Netezza TwinFin
NEC - InfoFrame DWH Appliance
Microsoft - Microsoft SQL Server
Pivotal - Greenplum