容災備份
容災備份
容災備份實際上是兩個概念,容災是為了在遭遇災害時能保證信息系統能正常運行,幫助企業實現業務連續性的目標,備份是為了應對災難來臨時造成的數據丟失問題。在容災備份一體化產品出現之前,容災系統與備份系統是獨立的。容災備份產品的最終目標是幫助企業應對人為誤操作、軟體錯誤、病毒入侵等“軟”性災害以及硬體故障、自然災害等“硬”性災害。
容災備份系統是指在相隔較遠的異地,建立兩套或多套功能相同的IT系統,互相之間可以進行健康狀態監視和功能切換,當一處系統因意外(如火災、地震等)停止工作時,整個應用系統可以切換到另一處,使得該系統功能可以繼續正常工作。容災技術是系統的高可用性技術的一個組成部分,容災系統更加強調處理外界環境對系統的影響,特別是災難性事件對整個IT節點的影響,提供節點級別的系統恢復功能。
地震災難頻發,因此做好容災備份,尤其是異地容災備份是十分必要的。做異地容災備份,必須保證三百公里之外,同時還必須做到“三不”,即不在同一地震帶,不在同一電網,不在同一江河流域。
從其對系統的保護程度來分,可以將容災系統分為:數據容災和應用容災
數據容災就是指建立一個異地的數據系統,該系統是本地關鍵應用數據的一個實時複製。
所謂數據容災,就是指建立一個異地的數據系統,該系統是本地關鍵應用數據的一個可用複製。在本地數據及整個應用系統出現災難時,系統至少在異地保存有一份可用的關鍵業務的數據。該數據可以是與本地生產數據的完全實時複製,也可以比本地數據略微落後,但一定是可用的。採用的主要技術是數據備份和數據複製技術。數據容災技術,又稱為異地數據複製技術,按照其實現的技術方式來說,主要可以分為同步傳輸方式和非同步傳輸方式(各廠商在技術用語上可能有所不同),另外,也有如“半同步”這樣的方式。半同步傳輸方式基本與同步傳輸方式相同,只是在Read佔I/O比重比較大時,相對同步傳輸方式,可以略微提高I/O的速度。而根據容災的距離,數據容災又可以分成遠程數據容災和近程數據容災方式。下面,我們將主要按同步傳輸方式和非同步傳輸方式對數據容災展開討論,其中也會涉及到遠程容災和近程容災的概念,並作相應的分析。
所謂應用容災,是在數據容災的基礎上,在異地建立一套完整的與本地生產系統相當的備份應用系統(可以是互為備份),在災難情況下,遠程系統迅速接管業務運行。數據容災是抗禦災難的保障,而應用容災則是容災系統建設的目標。建立這樣一個系統是相對比較複雜的,不僅需要一份可用的數據複製,還要有包括網路、主機、應用、甚至IP等資源,以及各資源之間的良好協調。主要的技術包括負載均衡、集群技術。數據容災是應用容災的基礎,應用容災是數據容災的目標。在選擇容災系統的構造時,還要建立多層次的廣域網路故障切換機制。本地的高可用系統指在多個伺服器運行一個或多種應用的情況下,應確保任意伺服器出現任何故障時,其運行的應用不能中斷,應用程序和系統應能迅速切換到其它伺服器上運行,即本地系統集群和熱備份。在遠程的容災系統中,要實現完整的應用容災,既要包含本地系統的安全機制、遠程的數據複製機制,還應具有廣域網範圍的遠程故障切換能力和故障診斷能力。也就是說,一旦故障發生,系統要有強大的故障診斷和切換策略制訂機制,確保快速的反應和迅速的業務接管。實際上,廣域網範圍的高可用能力與本地系統的高可用能力應形成一個整體,實現多級的故障切換和恢復機制,確保系統在各個範圍的可靠和安全。
集群系統是在冗餘的通常可用性系統基礎之上,運行高可靠性軟體而構成。高可靠性軟體用於自動檢測系統的運行狀態,在一台伺服器出現故障的情況下,自動地把設定的服務轉到另一台伺服器上。當運行伺服器提供的服務不可用時,備份伺服器自動接替運行伺服器的工作而不用重新啟動系統,而當運行伺服器恢復正常后,按照使用者的設定以自動或手動方式將服務切換到運行服務上運行。備份伺服器除了在運行伺服器出現故障時接替其服務,還可以執行其他應用程序。因此,一台性能配備充分的主機可同時作為某一服務的運行伺服器和另一服務的備份伺服器使用,即兩台伺服器互為備份。一台主機可以運行多個服務,也可作為多個服務的備份伺服器。
數據容災系統,對於IT而言,就是為計算機信息系統提供的一個能應付各種災難的環境。當計算機系統在遭受如火災、水災、地震、戰爭等不可抗拒的自然災難以及計算機犯罪、計算機病毒、掉電、網路/通信失敗、硬體/軟體錯誤和人為操作錯誤等人為災難時,容災系統將保證用戶數據的安全性(數據容災),甚至,一個更加完善的容災系統,還能提供不間斷的應用服務(應用容災)。可以說,容災系統是數據存儲備份的最高層次。
同城備份,是指將生產中心的數據備份在本地的容災備份機房中,它的特點是速度相對較快。由於是在本地,因此建議同時做接管。但是它的缺點是一旦發生大災大難,將無法保證本地容災備份機房中的數據和系統仍可用。
異地備份,通過網際網路TCP/IP協議,將生產中心的數據備份到異地。備份時要注意“一個三”和“三個不原則”,必須備份到300公里以外,並且不能在同一地震帶,不能在同地電網,不能在同一江河流域。這樣即使發生大災大難,也可以在異地進行數據回退。當然,異地備份,如果想做接管需要專線連接,一般需要在同一網段內才能實現業務的接管。
當然,最好是能夠建立起“兩地三中心”的模式,既做同城備份也做異地備份,這樣數據的安全性會高得多。
容災備份是通過在異地建立和維護一個備份存儲系統,利用地理上的分離來保證系統和數據對災難性事件的抵禦能力。根據容災系統對災難的抵抗程度,可分為數據容災和應用容災。數據容災是指建立一個異地的數據系統,該系統是對本地系統關鍵應用數據實時複製。當出現災難時,可由異地系統迅速接替本地系統而保證業務的連續性。應用容災比數據容災層次更高,即在異地建立一套完整的、與本地數據系統相當的備份應用系統(可以同本地應用系統互為備份,也可與本地應用系統共同工作)。在災難出現后,遠程應用系統迅速接管或承擔本地應用系統的業務運行。設計一個容災備份系統,需要考慮多方面的因素,如備份/恢複數據量大小、應用數據中心和備援數據中心之間的距離和數據傳輸方式、災難發生時所要求的恢復速度、備援中心的管理及投入資金等。根據這些因素和不同的應用場合,通常可將容災備份分為四個等級。
第0級:沒有備援中心
這一級容災備份,實際上沒有災難恢復能力,它只在本地進行數據備份,並且被備份的數據只在本地保存,沒有送往異地。
第1級:本地磁帶備份,異地保存
在本地將關鍵數據備份,然後送到異地保存。災難發生后,按預定數據恢復程序恢復系統和數據。這種方案成本低、易於配置。但當數據量增大時,存在存儲介質難管理的問題,並且當災難發生時存在大量數據難以及時恢復的問題。為了解決此問題,災難發生時,先恢復關鍵數據,后恢復非關鍵數據。
第2級:熱備份站點備份
在異地建立一個熱備份點,通過網路進行數據備份。也就是通過網路以同步或非同步方式,把主站點的數據備份到備份站點,備份站點一般只備份數據,不承擔業務。當出現災難時,備份站點接替主站點的業務,從而維護業務運行的連續性。
第3級:活動備援中心
在相隔較遠的地方分別建立兩個數據中心,它們都處於工作狀態,並進行相互數據備份。當某個數據中心發生災難時,另一個數據中心接替其工作任務。這種級別的備份根據實際要求和投入資金的多少,又可分為兩種:①兩個數據中心之間只限於關鍵數據的相互備份;②兩個數據中心之間互為鏡像,即零數據丟失等。零數據丟失是目前要求最高的一種容災備份方式,它要求不管什麼災難發生,系統都能保證數據的安全。所以,它需要配置複雜的管理軟體和專用的硬體設備,需要投資相對而言是最大的,但恢復速度也是最快的。
在建立容災備份系統時會涉及到多種技術,如:SAN或NAS技術、遠程鏡像技術、基於IP的SAN的互連技術、快照技術等。這裡重點介紹遠程鏡像、快照和互連技術。
1. 遠程鏡像技術
遠程鏡像技術是在主數據中心和備援中心之間的數據備份時用到。鏡像是在兩個或多個磁碟或磁碟子系統上產生同一個數據的鏡像視圖的信息存儲過程,一個叫主鏡像系統,另一個叫從鏡像系統。按主從鏡像存儲系統所處的位置可分為本地鏡像和遠程鏡像。遠程鏡像又叫遠程複製,是容災備份的核心技術,同時也是保持遠程數據同步和實現災難恢復的基礎。遠程鏡像按請求鏡像的主機是否需要遠程鏡像站點的確認信息,又可分為同步遠程鏡像和非同步遠程鏡像。同步遠程鏡像(同步複製技術)是指通過遠程鏡像軟體,將本地數據以完全同步的方式複製到異地,每一本地的I/O事務均需等待遠程複製的完成確認信息,方予以釋放。同步鏡像使拷貝總能與本地機要求複製的內容相匹配。當主站點出現故障時,用戶的應用程序切換到備份的替代站點后,被鏡像的遠程副本可以保證業務繼續執行而沒有數據的丟失。但它存在往返傳播造成延時較長的缺點,只限於在相對較近的距離上應用。非同步遠程鏡像(非同步複製技術)保證在更新遠程存儲視圖前完成向本地存儲系統的基本操作,而由本地存儲系統提供給請求鏡像主機的I/O操作完成確認信息。遠程的數據複製是以後台同步的方式進行的,這使本地系統性能受到的影響很小,傳輸距離長(可達1000公里以上),對網路帶寬要求小。但是,許多遠程的從屬存儲子系統的寫沒有得到確認,當某種因素造成數據傳輸失敗,可能出現數據一致性問題。為了解決這個問題,目前大多採用延遲複製的技術(本地數據複製均在後台日誌區進行),即在確保本地數據完好無損後進行遠程數據更新。
2.快照技術
遠程鏡像技術往往同快照技術結合起來實現遠程備份,即通過鏡像把數據備份到遠程存儲系統中,再用快照技術把遠程存儲系統中的信息備份到遠程的磁帶庫、光碟庫中。快照是通過軟體對要備份的磁碟子系統的數據快速掃描,建立一個要備份數據的快照邏輯單元號LUN和快照cache。在快速掃描時,把備份過程中即將要修改的數據塊同時快速拷貝到快照cache中。快照LUN是一組指針,它指向快照cache和磁碟子系統中不變的數據塊(在備份過程中)。在正常業務進行的同時,利用快照LUN實現對原數據的一個完全的備份。它可使用戶在正常業務不受影響的情況下(主要指容災備份系統),實時提取當前在線業務數據。其“備份窗口”接近於零,可大大增加系統業務的連續性,為實現系統真正的7×24運轉提供了保證。快照是通過內存作為緩衝區(快照cache),由快照軟體提供系統磁碟存儲的即時數據映像,它存在緩衝區調度的問題。
3.互連技術
早期的主數據中心和備援數據中心之間的數據備份,主要是基於SAN的遠程複製(鏡像),即通過光纖通道FC,把兩個SAN連接起來,進行遠程鏡像(複製)。當災難發生時,由備援數據中心替代主數據中心保證系統工作的連續性。這種遠程容災備份方式存在一些缺陷,如:實現成本高、設備的互操作性差、跨越的地理距離短(10公里)等,這些因素阻礙了它的進一步推廣和應用。目前,出現了多種基於IP的SAN的遠程數據容災備份技術。它們是利用基於IP的SAN的互連協議,將主數據中心SAN中的信息通過現有的TCP/IP網路,遠程複製到備援中心SAN中。當備援中心存儲的數據量過大時,可利用快照技術將其備份到磁帶庫或光碟庫中。這種基於IP的SAN的遠程容災備份,可以跨越LAN、MAN和WAN,成本低、可擴展性好,具有廣闊的發展前景。基於IP的互連協議包括:FCIP、iFCP、Infiniband、iSCSI等。
RPO(Recovery Point Objective):即數據恢復點目標,主要指的是業務系統所能容忍的數據丟失量。 RTO(Recovery Time Objective):即恢復時間目標,主要指的是所能容忍的業務停止服務的最長時間,也就是從災難發生到業務系統恢復服務功能所需要的最短時間周期。 RPO針對的是數據丟失,而RTO針對的是服務丟失,二者沒有必然的關聯性。RTO和RPO的確定必須在進行風險分析和業務影響分析后根據不同的業務需求確定。對於不同企業的同一種業務,RTO和RPO的需求也會有所不同。
1、介質備份
階段備份:可將備份數據劃分為兩個階段,近期的備份數據保存在磁碟介質上,為近線備份;訪問頻率不高但仍具有保留價值的歷史備份數據保存在磁帶介質上,為離線備份。備份存儲櫃可通過循環備份以及份數據複製到磁帶設備,提供雙份備份和雙重保護。
遠程容災:可將備份數據周期性地保存到磁帶設備上,然後取出磁帶介質,運輸到異地機房保管,實現數據的遠程容災;當發生災難需要遠程恢復時,只需取出磁帶在異地直接讀取恢復。
保護遺留資產:既可利用備份存儲櫃領先的磁碟備份方案保護數據,又可使用磁帶介質作雙重保護,從而保護已有投資的遺留資產。
2、集中式數據級備份
採用高性能、一體化和節能的備份設備,可支持異構平台環境的集中備份和恢復管理,內置的虛擬介質池功能,使設備具有容量與處理性能呈線性增長的特性,可滿足大規模的備份需求。
統一保護:針對Windows伺服器環境、Linux伺服器環境、Unix伺服器環境以及PC桌面環境,可提供集中統一的備份和恢復管理。
全面保護:提供操作系統、應用系統和文件數據三層全面保護,應用系統支持 SQL Server、Oracle、Sybase、Exchange Server、Lotus Domino、DB2、MySQL、Active Directory等幾乎所有主流應用,無論是數據破壞,還是業務系統損壞,都可得到完整地恢復。
IT容災在企業現狀分析
雖然容災備份一直備受企業關注,但是根據調查顯示,大多數公司並沒有對自己的企業IT做好充足的容災準備。IDG研究服務的調查結果顯示,42%的受調查企業仍沒有部署現代化的容災恢復的解決方案,儘管之前這些企業遭受過數據丟失。
這些企業中的多數依然依靠無效的手段流程和磁帶進行備份。不過這種備份方式正在悄然變化。大多數受訪者預期,在未來的18個月的時間裡,他們將用高可用性、自動化系統的系統進行數據備份。這項調查結果也出乎研究者的預料。
在開展本次調查中,研究者發現還驚訝的發現,公司曾經遭遇過數據丟失和IT中斷的比率很高。即使系統有系統故障分析和災難恢複測試,但是很多公司並不把這些策略作為優先項目來實施。
這項調查結果也說明了企業必須保持警覺,部署消除意外損失的自動化解決方案,實施數據保護。
調查發現,目前企業的磁帶備份是最普遍的數據備份解決方案,有23%的大型企業,48%的中小型企業和27%的微型企業依靠這項技術來進行數據保護。
75%的IT管理者表示,他們的災難恢復計劃測試,82%的大型企業平均每年一次完成災難恢複測試。42%的受訪者表示,他們的組織至少一次的數據中斷,而停機時間超過四小時的任何中斷是他們不能接受的,因為IT的中斷可能給生產力帶來67%損失,其中包含27%聲譽損害,而因數據丟失帶來的財務損失不可估量。
因為企業IT預算的減少和容災恢復觀念的驅動,很多企業把數據保護和容災恢復當成企業數據的保險。當今的數據中心,一般都是24*7的不間斷服務。美國桑迪颶風的影響,使得很多企業看到了快速的數據恢復和IT服務的必要性,隨著越來越多地企業因為採用虛擬化的磁帶備份所需的時間和成本的巨大,轉向基於磁碟的解決方案。不過專家表示,通過使用高度可用的自動化技術和統一的災難恢複測試,企業可以放心的處理可能出現的任何問題。
要建設優秀的容災備份系統,主要有三種模式:
1、獨立自建
目前在我國,獨立自建的模式主要集中於銀行、海關、稅務等災備建設需求迫切、擁有強大經濟實力、有較好技術支撐的行業。這些行業的獨立自建是符合他的行業現狀的,他們的災備建設對國家經濟的健康發展有著重要意義,因此對於這些行業的獨立建設模式國家是支持的。
2、聯合共建
平行或者垂直的共同建設,所謂的平行可以是一個行業的容災備份,比如醫衛行業、教育行業,聯合起來建設行業內的容災中心。
以城市為單位,相關部門牽頭對本市乃至本省內的數據進行垂直集中保護。像陝西省的容災備份中心就是政府牽頭來針對全省的電子政務數據進行集中備份在榆林聯合共建了災備中心,和力記易提供了該項目中所有的容災備份軟體(UPM備特佳容災備份系統),完美支持了政府使用的國產操作系統和資料庫。
3、社會化服務
社會化服務就是將行業或企業的災難備份業務交由第三方,由專業的災備服務提供商提供支持和服務。由於災備服務提供商服務於廣泛的客戶群,因此擁有更為廣泛專業的技能。此外,用戶還可以利用服務商的規模經濟降低成本並實現資源共享。因此,相比於自建與共建,社會化服務模式具有專業化程度高、成本投入低、資源共享、高服務質量的鮮明優勢,也正是這種優勢賦予了社會化服務“主流趨勢”的強大生命力。
以災備產業發展較為成熟的美國為例,其獨立自建、聯合共建與社會化服務三者分別占災備建設的29%、15%和56%,從數據可以明顯看出社會化服務所佔據的高比例。“社會化服務正在成為一個主流的趨勢。”
2007年7月,中國《信息系統災難恢復規範》正式推出,並於2007年11月開始實施,這是中國災難備份與恢復行業的第一個國家標準。《信息系統災難恢復規範》的推出指明了信息時代各行業進行災備建設的重要性,同時也暗示了國內災備市場的巨大潛力。飛康CDP備份/容災一體化解決方案,真正以快速恢復服務為第一目標。無論用戶的應用或者系統乃至數據中心發生何種意外,例如,惡意的程序破壞、文件損毀、人為誤刪誤改、操作系統宕機、硬體故障,甚至整個機房毀於意外,在全面保護下,都能最大程度地保證企業數據損失(RPO)降到最低,業務中斷時間(RTO)最短,這也是國內領先的技術成就。如今,國內災備市場的80%被國外產品佔領,“稜鏡門”的曝光重新將國人的目光聚集到信息安全上,災備行業的特殊性決定了我們必須爭取自主掌控災備市場,廣道容災備份系統的出現展示出國產災備商打造優質國產災備產品、通過自主創新增強競爭力的決心。