數據倉庫技術
數據倉庫技術
數據倉庫技術(Data Warehousing)是基於信息系統業務發展的需要,基於資料庫系統技術發展而來,並逐步獨立的一系列新的應用技術。
隨著90年代後期Internet 的興起與飛速發展,我們進入了一個新的時代,大量的信息和數據,迎面而來,用科學的方法去整理數據,從而從不同視角對企業經營各方面信息的精確分析、準確判斷,比以往更為迫切,實施商業行為的有效性也比以往更受關注。
使用這些技術建設的信息系統我們稱為數據倉庫系統。隨著數據倉庫技術應用的不斷深入,近幾年數據倉庫技術得到長足的發展。典型的數據倉庫系統,比如:經營分析系統,決策支持系統等等。也隨著數據倉庫系統帶來的良好效果,各行各業的單位,已經能很好的接受“整合數據,從數據中找知識,運用數據知識、用數據說話”等新的關係到改良生產活動各環節、提高生產效率、發展生產力的理念。
數據倉庫技術就是基於數學及統計學嚴謹邏輯思維的並達成“科學的判斷、有效的行為”的一個工具。數據倉庫技術也是一種達成“數據整合、知識管理”的有效手段。
數據倉庫是面向主題的、集成的、與時間相關的、不可修改的數據集合。這是數據倉庫技術特徵的定位。
數據倉庫概念創始人W.H.Inmon在《建立數據倉庫》一書中對數據倉庫的定義是:數據倉庫就是面向主題的、集成的、相對穩定的、隨時間不斷變化(不同時間)的數據集合,用以支持經營管理中的決策制定過程、數據倉庫中的數據面向主題,與傳統資料庫面嚮應用相對應。主題是一個在較高層次上將數據歸類的標準,每一個主題對應一個宏觀的分析領域:數據倉庫的集成特性是指在數據進入數據倉庫之前,必須經過數據加工和集成,這是建立數據倉庫的關鍵步驟,首先要統一原始數據中的矛盾之處,還要將原始數據結構做一個從面嚮應用向面向主題的轉變;數據倉庫的穩定性是指數據倉庫反映的是歷史數據,而不是日常事務處理產生的數據,數據經加工和集成進入數據倉庫后是極少或根本不修改的;數據倉庫是不同時間的數據集合,它要求數據倉庫中的數據保存時限能滿足進行決策分析的需要,而且數據倉庫中的數據都要標明該數據的歷史時期。
數據倉庫最根本的特點是物理地存放數據,而且這些數據並不是最新的、專有的,而是來源於其它資料庫的。數據倉庫的建立並不是要取代資料庫,它要建立在一個較全面和完善的信息應用的基礎上,用於支持高層決策分析,而事務處理資料庫在企業的信息環境中承擔的是日常操作性的任務。數據倉庫是資料庫技術的一種新的應用,而且到目前為止,數據倉庫還是用關係資料庫管理系統來管理其中的數據。
與傳統資料庫面嚮應用進行數據組織的特點相對應,數據倉庫中的數據是面向主題進行組織的。面向主題的數據組織方式,就是在較高層次上對分析對象的數據的一個完整、一致的描述,能完整、統一地刻畫各個分析對象所涉及的各項數據及數據間的聯繫。
數據倉庫中的數據是從原有分散的資料庫中抽取出來的,由於數據倉庫的每一主題所對應的源數據在原有分散的資料庫中可能有重複或不一致的地方,加上綜合數據不能從原有資料庫中直接得到。因此數據在進入數據倉庫之前必須要經過統一和綜合形成集成化的數據。
數據倉庫中數據的不可更新性是針對應用來說的,即用戶進行分析處理時是不進行數據更新操作的;但並不是說,從數據集成入庫到最終被刪除的整個數據生成周期中,所有數據倉庫中的數據都永遠不變,而是隨時間不斷變化的。