災備中心
災備中心
對CIO來說,災備中心是信息化建設的重要組成部分,是信息化時代防範災難、降低損失的重要手段。而災備中心的選址失誤將導致災備中心本身面臨災難,最終導致災難備份措施的失效。
四川大地震的突然發生,從各個層面都對中國是一場考驗,考驗中國人的意志,同時也對中國基礎設施的各個方面提出了嚴峻的考驗,我們過去真的認真考慮地震災害的影響了嗎?中國正在進入信息化時代,企業大量的業務數據在信息系統中被採集、傳輸、存儲、處理、應用,一旦系統崩潰,企業將面臨巨大的損失。在以往普遍認知中,總認為災難離我們很遠,當今年接踵而來的災難,雪災、地震、藏獨突然來臨,很多企業突然意識到災難也許就近在咫尺。以金融機構為例:截至5月23日,處於震區的農村信用合作社受災網點已達2769個,其中房屋完全倒塌131個,無法正常營業的網點778個;位於重災區的綿陽市商業銀行,50多個網點中有10個以上短期內無法恢復運作。在這個信息化無處不在的時代,面臨災難,我們需要重新審視我國的災難備份建設,真的是有備無患了嗎? 911之後,災難備份被提升到前所未有的高度,國內研究機構、諮詢機構、IT服務企業不斷呼籲災難備份建設。國家信息化辦公室也在2005年發布《重要信息系統災難恢復指南》,將災備建設推到新的高度。雖然整體災難備份市場仍處在啟動階段,但到目前為止,已經有一些政府部門、大型企業陸續進行災難備份建設。從現狀看,以往災備中心建設往往重視硬體基礎設施和服務體系的完備,而往往忽略了一個最基礎也是最重要的問題:災備中心選址。這就意味著:災備中心是為了在災難事件發生時保障業務連續性,減少損失,但災備中心選址的失誤有可能造成災備中心自身面臨著新的災難。
最近有一個典型案例有非常強的代表性:3月22日,中國太保集團股東大會通過決議,將投資約10億元人民幣在成都高新區建設IT容災、研發及後援中心,總面積約10萬平方米。中國太保集團關於該項目的議案中認為選址成都的原因之一是,當地地質條件比較穩定,遠離地震帶,且地處戰略腹地,在成都建災備中心面臨的自然災難等可能性較低等。然而,過後不到兩個月時間,中國太保集團的項目準備年內動工之際,四川卻發生罕見的8級大地震。地震震中汶川距離成都僅100公里左右,雖然沒有造成直接損失,但間接的損失似乎難以避免(例如工期延遲導致的附加成本)。從這個案例可以看出,災備中心選址還需要慎之又慎。
從目前已建災備中心選址情況看,主要集中在北京、上海,以及廣東的深圳、南海、佛山、東莞等地。典型的如:中國工商銀行、中國建設銀行、中國農業銀行、中國銀行這四大銀行都是把全國數據中心分別建設在北京和上海兩地;交通銀行、光大銀行等股份制銀行的全國數據中心和災備中心也都是建在上海和北京;央行已在無錫建立了災難應急備份中心,還計劃在上海建設全國支付系統數據的備份中心;招商銀行的生產中心在深圳,災難備份中心建在南京;2006年,國開行災難備份中心已決定選址深圳;國內首個國家級電信災難備份服務中心在成都建成。按照國家布局,電信將在北京、上海、廣州等地建立5個國家級異地災備中心,為多個行業提供租賃式信息災備服務;國家稅務總局數據中心2005年底正式落戶廣東南海,該數據中心與國家稅務總局數據中心(北京)共同作為全國稅務系統骨幹網路核心節點。
根據調研情況看,過去單位和企業在災備中心選址時,更多的考慮企業自身一些便利條件,往往忽略了災備中心是一項成本較大、人才密集、技術集中、要求高度可用性的系統工程。從選址的角度,災備中心的可用性會受到以下7個方面要素的影響。
1.社會經濟人文環境的優越性(包括:經濟發展水平,人文發展水平)
2.當地的自然地理條件(包括:地震、颱風、洪水等自然災害記錄,政治和軍事地域安全性)
3.高科技人才資源條件(包括:高校數量,IT人員數量,其他科研教育機構數量)
4.配套設施條件(包括:交通、水電氣供應,消防等其他市政配套)
5.成本因素(包括:人力成本、水電氣資源成本、土地成本、各種個人消費成本)
6.周邊環境(包括:生粉塵、油煙、有害氣體源,具有腐蝕性、易燃、易爆物品的工廠、倉庫、堆場,強振源和強雜訊源,避開強電磁場干擾)
7.政策環境(包括:土地政策、人才政策、稅收政策)
災備中心選址關聯要素重要性分佈
災備中心選址的7大要素按重要性排序為自然地理條件、配套設施、周邊環境、成本因素、政策環境、高科技人才資源環境、社會經濟人文環境。
按照上述7大要素再去評估現有災備中心選址城市和區域,我們會發現以下問題:選址北京、上海會直接導致成本顯著提高,選擇成都可能會沒有認真評估近成都地區的地震斷裂帶的影響,一些小型城市,人力資源可能成為瓶頸。除這些比較明顯的問題,比對這些要素,我們會發現現有災備中心選址中還存在大量的不足和潛在問題。如:自然地理條件較差,災備中心將會面臨較高的地震等自然災害風險;配套設施條件的不足,將導致水電等關聯成本的提升;周邊環境的惡化有可能導致高科技設備的可用性降低,以及危及運維人員的安全;選擇成本較高的區域,將導致本來就投資大、效益小的災備中心投入產出矛盾更為突出;對政策環境的忽略,將有可能面臨政策風險;一些中小型城市高科技人才資源的欠缺將導致災備中心運維IT人才資源短缺,運維人員素質降低,尤其在災難發生時風險加大;而社會經濟環境條件較差會導致災備中心原材料及配件供應不足。從目前國內大多數災備中心的選址條件看,上述問題都或多或少存在,這對災備中心而言,蘊藏著巨大的投資風險。
從技術上看,衡量容災系統有兩個主要指標:RPO(Recovery Point Object)和RTO(Recovery Time Object),其中RPO代表了當災難發生時允許丟失的數據量;而RTO則代表了系統恢復的時間。最好的情況是RPO=0,RTO=0,但顯然這種情況是個理想狀態。
現在災備做得最好的銀行系統是將指標設在RPO=0,RTO<5分鐘。每個單位每個業務的災備目標不可能都要求達到銀行的標準,因在規劃業務系統的災備和技術選擇時,需要細緻分析各單位複雜的IT系統的危險程度,有效區分關鍵業務和非核心業務系統,並平衡業務系統的實際需求和總體成本的關係。
除對災備規劃重視外,作為容災的關鍵設備,存儲設備本身的性能也很重要。電信運營商對於核心存儲設備的穩定性要求遠高於主機和網路設備;存儲產品本身必須有容錯架構、故障自檢和自愈能力,而且廠商應該具有充分的技術服務能力,支撐電信運營商對於安全和穩定性的苛刻要求,僅僅提供設備已經不能滿足運營商對於存儲系統穩定運行的需要了。國內的運營商開始出現多點容災、雙向互容災等等複雜的需求;而過去大多僅僅建設同城同步容災,現在的市場需求多樣,而且要求的功能越來越複雜。