數據歸檔

數據歸檔

數據存檔(data archiving)是將不再經常使用的數據移到一個單獨的存儲設備來進行長期保存的過程。

內容定義


數據存檔由舊的數據組成,但它是以後參考所必需且很重要的數據,其數據必須遵從規則來保存。數據存檔具有索引和搜索功能,這樣文件可以很容易地找到。

常用的介質


磁帶存儲介質

儘管現在許多存儲管理員選擇磁碟作為備份的介質,磁帶存儲介質仍然是使用最廣泛的歸檔介質,這主要是因為它的容量成本比高。

光學介質存儲

光學介質存儲曾經在歸檔領域非常流行,因為它是最早提供一次寫入,多次讀取(WORM)數據重防寫的格式之一,也就是一旦這種介質被寫入,它只能讀取,無法重寫。

磁碟存儲

作為數據存檔介質的選擇,磁碟存儲已經成為磁帶的最大挑戰者。它高達2TB容量的SATA驅動器的可用性以及它低於150美元的成本,顯然使得它可以與磁帶相競爭。

移動磁碟存儲

數據存檔技術的討論不可能完全不提及可移動磁碟存儲,它同時提供了磁帶便攜性與基於磁碟的歸檔的所有好處。

雲技術存檔

對於存儲合規相關的數據而言,雲技術顯然非常合適。軟體即服務(Saas)供應商也將其服務定義為一種更經濟的方式,來將很少訪問而要求很高安全性和訪問控制的數據從主站點存儲上分離出來。不過專家提醒,在沒有仔細檢查第三方服務的情況下,將合規數據通過雲存檔的方式存放可能會帶來風險。

軟體介紹


什麼是數據歸檔軟體?它是一種允許你通過不同上下文進行搜索的軟體,而不僅僅是通過伺服器、應用程序或目錄,文件名或者郵件。所有數據備份軟體能做的是:在某一個時間點,從已知的伺服器目錄或者應用下抓取一個已知的文件或電子郵件。這是它唯一知道的情況。另一方面,歸檔軟體需要能夠在一段時間內----有可能長達七年,在多台伺服器的多個目錄和應用下抓取一系列的電子郵件或文件。這個領域的產品生產商主要有Autonomy Zantaz、Iron Mountain/Mimosa NearPoint以及Symantec公司。當然,在數據歸檔軟體市場還有一些其他的合適的參與者。
數據備份和數據歸檔軟體之間的不同,類似於恢復(備份軟體做的工作)和檢索(歸檔軟體做的工作)之間的不同。

優化基礎設施


自從二十世紀五十年代後期計算機的首次使用以來,數據和信息的世界一直在不斷的發展。隨著時間的過去,很明顯數據像許多實體一樣都有生命周期,並且特定於生命周期中的每個時點、不同的一組特徵、存儲和訪問需求。數據倉庫的概念由業務需求演變而來,業務需要在不同數據源之間基於其生命周期內的不同點進行可靠、統一和集成的數據報告和分析。
就總的感覺而言,數據倉庫只是組織以電子方式存儲數據的一個資料庫;重要的是必須意識到,任何倉庫都會受限於在倉庫中查找和訪問項目以及將項目移入和移出倉庫的流程。對於數據而言,數據倉庫系統的主要組成部分包括有選擇地存儲數據的能力、檢索和分析數據的能力(不管數據在哪裡),以及管理數據字典的能力。為了有效操作數據倉庫,組織需要了解數據倉庫中存儲的信息在數據生命周期內的不同點存在的固有差異。
隨著數據變舊:
1. 訪問數據的可能性會降低。簡言之,數據變得越舊,它的使用頻率就越低。
2. 數據結構會改變。隨著軟體逐漸發展得更加複雜以更有效率地處理更多數據,資料庫體系架構必然也要改變。透過一系列利用越來越強大的硬體和軟體技術的軟體版本穩定發布可看到這一點。
3. 存儲的數據量呈指數方式增長。受行業及政府法規的制約,數據必須存儲和保持可訪問數年之久。然後只有第一年的數據價值被有效利用,維護歷史數據可能輕易地讓數據存儲激增到比當前生產資料庫多20倍。
實施強大存檔技術將為數據倉庫提供最佳的和經濟高效的存檔基礎設施:
1. 在多種格式之間保持數據完整性
2. 實現方便的按需訪問存檔數據
3. 提供通用連接,並與多種存檔平台集成以確保卓越和經濟高效的可擴展性和性能
4. 高效存儲存檔數據以節約存儲容量,同時促進快速檢索數據

優化存儲層


可以利用數據存檔,以物理方式自動將數據倉庫中具有較低業務價值的數據遷移到更適合、更經濟高效的存儲層。有許多標準可用來確定業務價值較低的數據:如 數據訪問和性能需求、數據的使用年限、數據屬於哪個地區或部門,以及分區 用途。當訪問率低的數據發展為消耗數據倉庫的最大一份,最合理的處理方式是以物理和邏輯方式從核心生產數據倉庫中分離此數據。
一旦組織了解到數據管理的問題、相關經濟情況、休眠數據的問題以及由於數據 增長引發的發展壓力,必然結果是第一代數據倉庫演變為數據倉庫 2 .0,在此過程中將創建存檔數據存儲層。
數據倉庫2 .0 的數據倉庫環境中的存檔存儲層有許多不同特性,讓它與數據倉庫的其他部分區分開來。存檔層中數據的訪問概率低。存檔環境中的數據通常不會更新。兩個環境之間的資料庫設計可能一樣,也可能不同。
數據倉庫存檔的主要驅動因素通常是為了通過存儲分層來降低基礎設施成本、降低維護成本以及維護峰值數據倉庫性能。只需將非活動數據從生產數據倉庫遷移到 低成本的伺服器和存儲設備即可達成這些目標,但是您的業務需求有可能更加 複雜,例如如何訪問和檢索存檔數據。在選擇數據倉庫存檔解決方案時,您需要 考慮組織的預算限制及性能和訪問需求。
您的 IT 組織訪問存檔數據的頻率可能低於訪問活動數據的頻率。但是您可能仍需要直接從原始應用程序介面中定期檢索組合的存檔和當前數據。在這種情況下,數據應存檔到查詢性能相當高的數據倉庫中,如位於成本較低的基礎設施上的另一個 數據倉庫實例。
另一方面,如果非活動數據非常舊且準備停止使用,則可能很少訪問這些數據。在這種情況下,通過報告或電子搜索工具進行訪問就可以了,而不用通過應用程序 介面進行訪問。此時可以忍受較慢的查詢性能,可將數據存檔為更適宜的壓縮 格式,如壓縮文件。

解決方案


Informatica Data Archive 是一種高度可擴展的高性能數據存檔軟體。它可幫助 IT 組織經濟有效地管理各種企業業務應用程序中的數據增長,以提高其性能並降低 IT 成本。藉助 Informatica Data Archive,IT 團隊可以安全地存檔應用程序數據,提供對存檔數據的無縫訪問,並按需向業務部門提供存檔數據。
• 存檔非活動數據以提高應用程序性能
• 安全地淘汰遺留應用程序以降低 IT 成本
• 藉助全面實施的保留和處置政策確保合規性和對數據存檔的輕鬆訪問
Informatica Data Archive 主要功能之深入分析數據增長
• 分析應用程序之間的表空間、架構和模塊的數據增長率
• 有助於確定有效的存檔策略及更好地管理數據增長
Informatica Data Archive 主要功能之可靠的數據存檔支持
• 將非活動數據移到其他資料庫實例,或置於不可修改且高度壓縮的安全文件中,以供日後檢索
• 存檔完整的業務條目,包括事務數據、主數據、參考數據和元數據。
Informatica Data Archive 主要功能之非結構化數據存檔支持
• 將文檔、附件、圖像和音頻文件存檔
• 將電信交換的詳細呼叫記錄 (CDR) 存檔,並將其轉化為可輕鬆搜索的結構化存檔格式
Informatica Data Archive 主要功能之無縫訪問數據存檔
• 可從現有應用程序界面訪問資料庫實例中存檔的數據,以及恢復完整的存檔、選定業務實體或存檔快照
• 訪問存檔數據時與原應用程序具有類似的外觀和體驗,或從標準的報告和商業智能工具,訪問存檔數據
Informatica Data Archive 主要功能之所有數據存檔的內在合規性
• 保證所有數據存檔的事務完整性和參考完整性
• 控制、跟蹤存檔過程和對存檔數據的所有訪問、保留、清除和保留活動
Informatica Data Archive 主要功能之全套應用程序加速器
• 提供預建的加速器,其中含有針對 Oracle E-Business Suite、PeopleSoft、Siebel、SAP 等業務應用程序的自定義業務規則和資料庫存檔策略
• 使用簡單的圖形用戶界面來顯示、編輯和擴展存檔模板(加速器),也可用來構建新的數據存檔模型和業務規則以對自定義應用程序進行存檔
Informatica Data Archive 主要功能之廣泛的連接性和擴展性
• 可連接到眾多資料庫、大型機和業務應用程序,包括Oracle、IBM DB2、MS SQL Server、Teradata、VSAM、Adabas 和 JD Edwards
• 輕鬆地與電子郵件和文件存檔解決方案或企業內容管理解決方案相集成
實現存儲層最優化
使用Informatica Data Archive,可以存檔到另一個數據倉庫實例,或存檔到能極大節省存儲空間的高度壓縮文件格式。隨著數據變舊和訪問需求隨時間變化,Informatica Data Archive自動將數據從一種存檔格式轉成另一種格式,並從一個位置遷移到另一個位置,啟動多個經濟高效的存儲層。
Informatica Data Archive只允許存檔事務數據和明細數據,這些數據是增長最快的。在維護數據完整性以及指向可能仍然存儲在生產系統中的維表和聚合表的鏈接時執行此操作。最後,有些較舊的維記錄也可能需要存檔。Informatica Data Archive非常清楚應存檔哪些類型的表來支持最優的存檔策略。
Informatica Data Archive提供一個簡單易用的圖形用戶界面,不需大量的配置、編寫腳本或編製程序就可以輕鬆定義存檔工作。利用提供多種存檔格式和輔助功能選項的數據倉庫存檔解決方案,IT組織可以在存檔大小、性能、應用程序可存取性以及成本之間確定一個適當的平衡點。
訪問存檔數據方式
不管是哪種存檔格式,已存檔的數據都需要能夠從原始應用程序介面或通過標準介面輕鬆訪問,以便進行報告或合規性審計。Informatica Data Archive支持使用任何報告或商業智能工具通過標準SQL/ODBC/DBC介面進行報告。該解決方案還讓您選擇從應用程序能夠識別的數據發現門戶訪問數據,能夠基於業務實體輕鬆搜索、瀏覽和查看已存檔或已停止使用的數據,並且使用與原始應用程序介面有類似外觀的介面。
自動索引存檔數據
在將數據存檔到另一個數據倉庫實例時,Informatica Data Archive自動建立和維護在生產數據倉庫實例中存在的索引。當存檔到高度壓縮存檔文件時,數據會自動進行索引並以最優格式存儲,以便於高效存儲和可擴展檢索。不需對存檔數據進行性能調整和維護、減少IT職員的工作時間。
自動管理變化數據結構
隨著生產數據倉庫結構不斷演變,Informatica Data Archive自動更新存檔數據倉庫的元數據和結構。當存檔到高度壓縮文件格式時,Informatica Data Archive維護多個版本的元數據,與生產數據倉庫結構的定期快照相對應。這樣就可以基於某個時間點的數據倉庫結構對存檔數據執行時間點查詢。根據生產數據倉庫的結構變化自動管理存檔數據的元數據和結構,Informatica Data Archive減少了存檔基礎設施所需的維護工作。
通用連接
如果您的組織與許多其他企業類似,則您的數據倉庫和應用程序可能在不同操作系統上的多個資料庫系統中運行。為了支持您的企業需求,Informatica?Data?Archive允許您管理數據倉庫和使用不同資料庫的應用程序的存檔過程,這些資料庫包括:關係型(如Oracle、DB2、Sybase、SQL?Server、Teradata、Informix)、大型機(如 IDMS、VSAM 和 IMS)、文件以及開放系統(如 Windows、Linux 和 UNIX)或大型機系統(如 z/OS 和 AS/400)上的封裝 CRM 和 ERP 應用程序。
存檔解決方案
您的公司可能已經有用於電子郵件和文件的存檔解決方案。此外,您的 IT 組織可能也有自己的企業內容管理 (ECM) 解決方案標準來管理您的非結構化數據。為了支持合規性需求並確保留存數據的不變和單實例存儲,可以使用需要專屬連接的存檔 平台,如內容定址存儲 (CAS)。
為 了 讓 您 的 組 織 快 速 而 精 確 地 響 應 審 計 請 求 以 及 經 濟 高 效 地 長 期 留 存數據,Informatica Data Archive 允許您集中管理和發現所有類型(結構數據和非結構數據)的存檔數據。這通過與現有存檔、內容管理和存儲解決方案(包括EMC Documentum、Symantec Enterprise Vault 和 Discovery Accelerator、CommVault Simpana 和 eDiscovery)集成來完成,以促進所有類型存檔數據的集中管理和電子搜索。
Informatica Data Archive 使組織能夠處理大型跨國企業通常擁有的海量數據。通過提供全面而強大的技術來輕鬆、安全地存檔非活動數據,然後在需要時很容易訪問數據,Informatica Data Archive 提供了全面的存檔解決方案,可提供最優化、經濟高效的數據倉庫基礎設施。
小結
Informatica Data Archive 使組織能夠處理大型跨國企業通常擁有的海量數據。通過提供全面而強大的技術來輕鬆、安全地存檔非活動數據,然後在需要時很容易訪問 數據,Informatica Data Archive 提供了全面的存檔解決方案,可提供最優化、經濟高效的數據倉庫基礎設施。
當您的 IT 組織實施一個完整、可擴展和靈活的存檔解決方案時,可以通過以下方面
來降低數據倉庫及其他應用程序的總擁有成本:
· 降低存儲、伺服器、軟體和維護成本
· 改善數據倉庫性能
· 提高數據倉庫可用性
· 支持遵守內部、行業及政府法令和法規
同時,Informatica 和您的 IT 組織可以結合數據的業務價值與最適合和經濟高效的 IT
基礎設施來管理它。

步驟介紹


步驟1:收集數據歸檔服務的需求
在幾乎每一個技術採購決策中,從需求收集入手將是非常有用的;雲數據歸檔亦是如此。歸檔應用和服務可能還需要完成一些不同的工作,這取決於用戶在監管、合規性以及業務等方面的要求,具體包括:
·保護數據免於篡改、修改或刪除。
·制訂索引數據以便於用戶能夠找到所需要的信息。
·限制只有那些被授權人員才能訪問數據。
·保護信息的隱私性。
·提供災難恢復功能。
·能夠讓某些用戶快速訪問數據。
用戶的特定企業需求和要求將決定哪些功能是最重要的。但是因為並不是每一家雲供應商能夠提供不同於其他供應商的每一個功能和某些促進特定目標的實施選項,用戶在開始決定實施某一技術之前明確應用需求是非常重要的。
如果您的組織已經有了一個內部的歸檔方法,一個有用的第一步就是評估您是如何使用該系統的——即,那個平台提供了哪些功能以及您現在是如何使用該平台的。雖然這些信息可能不會被正式記錄成文,但您所使用當前產品的方法可能是制定需求基線的一個有效方法,因為您可以在評估雲方法時進行模仿。
如果沒有一個有待替換或補充的系統,那麼了解一些事情將有助於明確需求。例如,在數據歸檔后管理數據的法規限制,歸檔數據的類型(即是無格式的還是結構化的?)。是電子郵件、文件還是兩者的組合?誰將訪問數據以及如何訪問。尋找這些問題的答案可能需要花費一點功夫;從一開始就明確您的目標並讓利益相關者參與輸入:法務、合規性團隊、內部審計人員、業務團隊以及其他任何您在這個過程中指定的參與者。
步驟2:理解執行選項
一旦您明確了需求,那麼下一步就是理解數據歸檔應用各種可用實施選項的不同之處了。一般來說,這些實施選項可分為兩種:“純粹雲的”和混合的。
純粹雲模式是相當簡單和容易理解的:用戶使用雲服務完成實際的歸檔工作。這類方法的的優勢在於,它不需要內部基礎設施或者建設、運行和維護的專業知識。沒有條件配備專業人士的小型企業或者具有相對較狹窄歸檔應用範圍的企業可能會發現這是實施基於雲歸檔應用的最簡單選擇,同時也是快速啟動並運行的最簡單選擇。
相比之下,一個混合的模式可充分利用內部資源來幫助完成這一工作。例如,一個混合的方法可能會把最近創建的數據在本地進行存儲以便於實現輕鬆訪問,並把那些創建時間較長或者較少被訪問的數據存儲至雲中。企業用戶必須在容量有限成本更高的在線存儲與低成本但高延遲的遠程雲存儲之間找到一個最優的平衡點。對於一家擁有具有專門歸檔技術專業人員的企業(例如那些目前已經在使用本地歸檔產品的企業)或者擁有大量會被用戶頻繁訪問數據的企業來說,這種混合式的方法是比較適合的。這裡,用戶的特定需求和實際應用情況將決定可以使用哪一種模式。
從安全性的角度來看,還有一些優缺點應予以考慮。此外,用戶現有的長處和短處、應用範圍以及已開發應用程序的細微差別都將影響您的企業的最終選擇。例如,如果您的企業正努力驗證外部服務供應商並擁有著一套可靠的內部控制措施和完善的雲安全技術專業知識,那麼一個混合式的方法將是更為有益的。但是,如果您的企業有一套針對外部服務供應商技術與業務的完善審查程序,但是在內部控制上不怎麼擅長或者缺乏內部專業知識,那麼完全外包的方法是極具優勢的。
步驟3:產品評價
正如您所想象的那樣,最後一步就是選擇特定的產品和服務組合以供您的企業使用。在過去的幾年中,大批的供應商已推出了眾多的雲數據歸檔服務產品,所以目前與幾年前所不同的是市場上有著許許多多的選擇。也就是說,並不是每一家供應商都會提供每一項功能,支持所有的實施模式或者符合您特定需求的每一項安全性、隱私性和審核控制。例如,如果相關數據是具有較高敏感性的,那麼您的企業可能希望找到一些專門的數據保護功能,例如加密功能和相關的密鑰管理控制項。或者,可能希望使用一些評估身份驗證功能——如多元身份驗證的監控和報告功能;網路保護機制——如訪問控制與監控和基於託管的控制項。考慮流程式控制制,如誰將訪問您的數據以及如何進行審批等。
如同對其他任何雲服務進行評估一樣,應當由消費者承擔起了解供應商所提供產品與服務的責任,這樣他們才能夠在與供應商的談判中掌握主動,才能確保供應商所提供的功能和控制項能夠滿足他們的需求,才能制定出合適的合同要求和SLA,才能監督供應商確保達到他們所需的運行性能。
當您實施雲數據歸檔服務時,有一點應予以特別關注,即潛在的受制於供應商。需要對如下情形保持警覺:需求變更、供應商本身的變化(即兼并和收購)以及有時供應商未能按預期提供所承諾的運行性能。因此,制定預案以保留把數據遷移至另一家供應商的靈活性,這樣可有助於企業做出決策。