業務連續性計劃
業務連續性計劃
業務連續性計劃是一套基於業務運行規律的管理要求和規章流程,使一個組織在突發事件面前能夠迅速作出反應,以確保關鍵業務功能可以持續,而不造成業務中斷或業務流程本質的改變。
業務連續性是指企業有應對風險、自動調整和快速反應的能力,以保證企業業務的連續運轉。為企業重要應用和流程提供業務連續性應該包括以下三個方面。
1.高可用性(High availability) 。它是指提供在本地故障情況下,能繼續訪問應用的能力。無論這個故障是業務流程、物理設施,還是IT軟硬體故障。
2.連續操作(Continuous operations)。它是指當所有設備無故障時保持業務連續運行的能力。用戶不需要僅僅因為正常的備份或維護而需要停止應用的能力。
3.災難恢復(Disaster Recovery)。它是指當災難破壞生產中心時,在不同的地點恢複數據的能力。
同時,上述三個部分不是相互孤立的,是相互關聯,而且有交叉的。
區分業務連續性和災難恢復是很必要的。嚴格地說,災難恢復是恢複數據的能力,是業務連續性計劃的一部分。
讓業務連續性計劃成為企業變化管理文化的一部分。在制定企業業務連續性計劃之後,不要把這個計劃放在一邊。要確保該計劃的切實可行,就需要把它變成活動的文檔。如果企業的業務模式發生了變化,或是業務過程進行了重新設計,或是發生突髮狀況時的重要聯繫人不再為公司工作,舊的計劃就需要及時進行更新。當有變化時,每個員工都應該問問自己該變化會對業務連續性計劃中涉及到自己的部分會產生怎樣的影響。
在業務連續性計劃的制定中,需要參照以下幾個關鍵步驟來進行:
確定業務關鍵功能
公司的業務計劃通常就決定了公司關鍵的使命和業務功能。必須為這些功能設定優先順序別,這樣才能指出什麼對於公司的生存才是至關緊要的。
確定支持關鍵功能的資源和系統
在確定了關鍵的功能之後,就有必要找出實現這些功能究竟需要那些支持。這些支持不一定只是計算機系統,它們也可能是員工、程序、任務、供給和供應商的支持。做計劃的過程中必須確定對這些關鍵功能來說,如果有些資源和系統無法得到,那麼將產生什麼樣的後果。
需要有人來對這些資源進行分析,這樣的分析應該由那些理解資源並知道它們是如何為企業提供功能的人來完成。這些人通常應該懂得各種資源之間的相互依賴關係,以及資源缺失造成的真正後果。
估計潛在的災難事件
在這一步中,我們要確定所有可能的意外事故和災難,這很具有挑戰性。這也許需要請外面的諮詢人員來參與制定計劃,主要是因為“當局者迷,旁觀者清”,他們也許能夠想到一些我們的團隊想不到的問題。
選擇計劃策略
這一步包括制定有關如何恢復關鍵資源和評估應急方案。一個災難恢復計劃通常包括突發事件響應、恢復和重新開始等活動。突發事件響應涉及保護生命和制止進一步的損害。恢復包括為使關鍵功能重新回到工作狀態而採取的一系列必要步驟,重新開始是使公司回到初始工作狀態的活動。尤其值得注意的是:計劃所採取的策略要基於邏輯性、可行性和經濟性等幾個方面來考慮,也就是要做到比較好的tradeoff。為了恢復關鍵功能,有時候要在某些方面作出犧牲,在制定計劃的時候就應該決定這種犧牲。
實施策略
一旦決定了策略,就需要將它們歸檔,這使得我們的努力從純粹的計劃階段進入到了實際的實施和行動階段。同時,要注意將計劃的備份保留在除主站點之外的一個或多個地方。這樣一旦主站點被破壞,團隊仍然可以獲得連貫性計劃。
測試和修訂計劃
我們需要對業務連續性計劃做定期測試,因為環境總是在持續變化,每一次測試都能夠帶來一些改進。需要專門指派一個或多個員工來履行定期測試和維護這個計劃的職責。
該計劃的維護工作可以被包含到變更管理程序中,這樣環境的任何變化都將一定反映到計劃之中。
現在的社會特別是經濟社會對網路的依賴日益加深,傳統的備份恢複式安全計劃已經無法保證企業業務的連續運行。很多企業都希望建立自己的業務連續性計劃,但是往往苦於缺乏必要的資源。
業務連續性計劃正是因此而生,它根據業務流程而非針對技術進行制訂,有助於建立起更具統籌能力的安全管理制度。據Gartner Group的調查結果顯示,如果企業的大型數據中心和信息基礎設施停止運行10日以上,超過百分之三十的企業在一個季度內倒閉,而接近90%的企業在一年內倒閉。
這些數據說明了保證業務連續有效的運行對企業來說是多麼重要,同時也可以看出企業花費大量的資金於業務連續性計劃最核心的原因。
BCP的基本要素
籠統地說,BCP的目標只有一個,那就是確定並減少危險可能帶來的損失,有效地保障業務的連續性。而有關BCP的一些特定目標我們將在以下各個部分中加以描述。
BCP實施的最終結果是:
每個企業所制定的BCP都應該有每個企業或者所處行業獨有的特色,彼此之間不會完全一致,但大致上說來,一個完備的BCP主要是由以下一些關鍵部分構成的:
一、危險評估
危險評估就是認識並分析各種潛在危險的結果。這些危險的來源可能是:
所有的危險都應納入企業的危險評估範圍,並且應對各種危險的可能來源地進行較準確的定位。對於每一種危險的來源都應該認識到:
比如說,如果按照有無警示性先兆來分,各類危險還可以分為:
如果按照危險的破環類型或程度來分,它們對業務的影響可以分為:
顯然,對於企業來說,一個完備的BCP必須儘可能多地考慮到所有可能的危險情況,只有處理災難性事件的計劃而沒有處理應用系統失誤的計劃,這樣的BCP是不完備的;反之亦然。
企業所制定的BCP應該同時兼顧兩個方面——預防和控制。例如,人為事故和蓄意破壞可以通過物理安全和個人行為的評測來預防。而應用系統的錯誤則可以通過對軟體的有效評測與測試來預防。
危險評估的最後結果應該是一份有關危險效益分析的詳細陳述報告,要有對危險的精確描述、哪些危險可能發生,以及需要採取的保障業務連續性和緩和危險的措施,同時要有因為克服了危險而帶來的收益分析。這份報告還應該描述清楚任何現有的前提或者限制因素。
二、業務影響分析(BIA)
業務影響分析(Business Impact Analysis)實質上就是對關鍵性的企業功能、以及當這些功能一旦失去作用時可能造成的損失和影響的分析。
對於企業業務運營的關鍵人員來說,他們需要分析:
A. 影響
B. 業務恢復需求
在進行了這些分析之後,才有可能對企業的各種功能進行分類:
a)關鍵功能——如果這類功能被中斷或失效,就會徹底危及企業的業務並造成嚴重損失。
b)基礎功能——這些功能一旦失效將會嚴重影響企業長期運營的能力。
c)必要功能——企業可以繼續運營,但這些功能的失效會在很大程度上限制企業的效率。
d)有利功能——這些功能對企業是有利的;但它們的缺失不會影響企業的運營能力。
根據各種功能的恢復需求,企業便可為上述各類功能制定標準的恢復時間架構。例如,關鍵功能<1天;基礎功能:2~4天;必要功能:5~7天;有利功能:>10天。
影響分析可以幫助企業確定各類業務功能的優先順序,換句話說,也就確定了各業務功能的優先恢復順序。
BIA有助於定義恢復對象。在進行了影響分析之後可能會發現,在一次災難之後恢復業務運營時,首先恢復部分功能就足夠了,比如說在24小時內先恢復日常業務的40%就夠了。
詳細定義好在災難或業務中斷之後保障業務功能運營的資源需求也是可能的。這些資源需求包括基礎設施、人力資源、文檔、記錄、設備、電話、傳真機等,無論需要什麼資源都要有完備的規範要求。擁有適當的細節要求是非常重要的,因為在危險事件發生時,會產生一定程度的慌亂,到那時再決定這類細節已經不可能了。
成本因素在進行影響分析時也是不能忽略的。我們需要記住以下一些事項:
三、策略
BCP應包括以下策略:
A.預防 預防的目的在於減少災難發生的可能性。有關預防的策略應該包括制止和預防控制。制止控制可以減少危險的可能性。預防控制則是保護企業的弱點區域,以防禦危險的發生並降低其影響。這兩類控制在實際運營中廣泛存在,比如經營場所的安全、人員控制、相關基礎設施(如UPS、後備電池、煙火探測器、滅火器等)、軟體控制、相關的存儲和恢復等。
企業希望保障其資源(包括信息資產)的可用性和安全性,其安全策略必須針對這些對象而制定,並且提供有關資源使用和管理的指南。在熟悉了企業的所有資源、資源的布局以及危險管理等之後,才可能拿出實施安全策略所需的必要的控制措施。這些控制措施或安全舉措必須時時加以檢查和測試。
如果一種安全策略,能將預防措施都部署到位,可以監控對系統的入侵併防範那些試圖破壞系統的行為,那麼其本身就是一種制止控制。預防計劃的執行必須小心謹慎。必須保證實施安全策略時既不能對日常業務帶來限制,出現瓶頸,也不能引起可用性問題,或者給系統的訪問和使用帶來障礙。
B.響應 響應就是當危險發生時的反應。它必須能夠阻止危險的進一步擴大,評估危險的程度,通過與外部世界的正常通信聯絡挽回企業的聲譽,並啟動必要的恢復時間表。
對業務中斷的第一反應應該是告知所有相關的人員。如果危險有事前警示的話(比如這次的非典爆發),那麼這種告知就可以提前進行。及時的告知非常重要,因為這可能會給阻止危險的進一步擴大創造機會。如果在適當的時機執行一次關機、一次轉換或者一次撤離,甚至有可能完全防止危險的發生。但是這需要有診斷或探測控制的存在。這類控制或者可以持續掃描以探測發生中斷的徵候(網路、伺服器),或者可以從外部資源搜集信息(自然災害)。
準確的告知程序必須事先制定好。必須清楚地記錄在案:需要告知誰,怎樣告知,由誰告知,而且還得有逐步擴大的機制。
在BCP中必須設立好一棵告知樹。最初的告知發送給一組人,然後再由他們中的每個人去告知另一組人,依次類推。屬於這棵告知樹的人都有不同的責任和作用,所涉及的人員應包括:
還有很重要的一點就是每一個團隊都應明確第二負責人。萬一第一負責人沒有通知到或者無法負起責任,那麼必須告知第二負責人。告知可以使用各種工具或手段:如手機、呼機、簡訊、電話和E-mail。每個團隊都應當有相應的配備。
危險評估團隊應該是最早(或者與管理團隊同時)被告知的。他們應當最早來到現場,以便評估所遭受的危險程度和級別。如果工作現場已經遭到破壞,那麼他們就應該做好各項準備,一旦允許進入現場就開始工作。
評估過程本身也應有計劃地進行,必須與保障業務連續性的優先順序密切相關。這就是說評估團隊應當意識到危險所影響到的工作區域和工作流程是否對整個業務的運行至關重要。這將有助於他們優化其評估進程,同時也可正確地關注關鍵性工作區域。這支團隊需要察看以下事項:
有了危險評估團隊提供的有關受損程度和受損區域的詳盡信息,技術團隊便可立刻投入工作。
BCP必須擁有一組基於業務影響分析和持續性目標的預設參數,這些參數應該能夠區分出中斷和災難的不同性質,同時也能評價出危險的嚴重程度。
當危險評估團隊和技術團隊開始工作時,其他BCP團隊也應依照警示告知到位,以便按照連續性計劃採取應當採取的行動。
C.業務接續(Resumption)業務接續只涉及那些時間敏感的業務流程,要麼是在中斷髮生后立即接續,要麼是在可允許的一段平均時間後接續,但不是對所有業務的恢復。
一旦BCP被激活,命令將從指揮中心發出。這個指揮中心應該是在一個不同於日常經營場所的地方。該中心應配備相應的通信設施、辦公設備,可能的話還應該構建區域網和VPN。
需要做出的第一個決策是,關鍵性業務的運營能否在日常的工作場所或者在一個備選場所很快恢復運營。
備選場所可以分成以下幾類:
(a)空場所(Cold Site)——該場所只需配備必要的環境條件即可,比如說,應配備電話插座、電源以及UPS等,但要避免其內有任何其他設備,它的作用就是準備將保障業務持續所需的全部設備搬移進來。
(b)熱場所(Hot Site)——該場所是一個完全的備份場所,有人員工作的空間,所有設施一應俱全,數據備份也是最新的。一旦災難發生,BCP團隊只需進駐該場所就可開始工作,不會有額外的時間拖延。
(c)溫場所(Warm Site)——該場所實際上就是配備了部分設備的熱場所,數據備份不算最新,但也不能太舊。
(d)機動場所(Mobile Site)——該場所是一個具有較小設施配置的機動場所。可以位於主要經營場所附近,因而也可節省關鍵人員在路程上花費的時間。
(e)鏡像場所(Mirrored Site)——該場所在所有方面都與主要經營場所完全相同,信息和數據也與主要場所同步。實際上該場所就是正常狀況下的一個冗餘場所,因而通常也是成本最高的一種選擇。
在備選場所(或主要場所,如果仍然可用的話),工作環境需要恢復。通信、網路和工作站需要設置。與外界的聯繫必須持續暢通。企業可以首先手動恢復一些業務,直到關鍵的IT業務可以繼續運行為止。當然,如果恢復計劃(下面就要講到)允許,那麼關鍵業務功能也可採用自動方式迅速恢復。
D.業務恢復(Recovery)業務恢復是啟動時間敏感度稍低一些的業務流程。業務恢復的開始時間要取決於接續那些時間敏感的業務流程需要的時間。
在進行業務恢復的場所(可以是主要經營場所或備選場所),需要在備份的設備上恢復操作系統,並按照關鍵性次序恢復必要的應用系統。當服務於關鍵功能的應用系統恢復之後,則需要從備份磁帶或其他異地備份媒介上恢複數據。
備份數據也必須經常保持同步,也就是說,重建的數據應當與業務中斷之前的某一預先確定的時點的數據相吻合。該時點的選擇取決於關鍵業務的要求。由於商業數據有各種不同的來源,因此重建的每一種數據都必須達到所需的數據一致性狀態。經過同步的數據必須經常進行複查並保持其有效。這種複查必須強制執行,因為在危險發生的緊急關頭,不可能再有閑暇來測試數據是否可用。因此,必須要有一套清楚的方法、策略或複查清單來執行這個讓數據保持其有效性的過程。
一旦數據達到了可靠的狀態,企業的事務就可以加速運行,因為災難已經得到處理,所有的關鍵性功能都已得到接續。逐步地,其他業務也可開始恢復其功能。
E.復原(Restoration)復原則是修復並恢復主要的經營場所。最終是要在原有的場所或者一個全新的場所完全恢復所有的業務流程。
就在恢復團隊開始從某個備選場所開始支持恢復運營的時候,對主要場所的全部功能進行復原的工作也可以展開。如果原有場所在災難后的確無法恢復,則需要在一個新的場所進行復原工作。恢復團隊和復原團隊的成員有可能是同一組人。
必須確保該復原場配備必要的基礎設施、設備、硬體、軟體和通信設備。而且要對該場所能否處理全部的業務流程進行測試。
執行上述所有行動的計劃應當包括一個時間跨度定義,確定在某一跨度內必須完成哪些行動。這個時間跨度的定義必須與企業的恢複目標相一致。BCP團隊必須意識到,如果在任一時點,他們的行動超出了規定的時間跨度,那麼這個意外事件就必須立刻上報到指揮中心,由指揮中心馬上制定相應的解決辦法,否則企業就無法實現其恢複目標。
四、指標定義
在危險評估和業務影響分析階段之後,保持業務連續的基礎業務就已經顯現出來。我們在上面已經說過,按照業務術語可將企業的業務功能分成4類,即關鍵業務、基礎業務、必要業務和有利業務。
這種分類可以讓業務連續的優先順序十分清晰,這樣,業務恢復的目標就可以用下面的指標進行量化:
業務連續性計劃既可以分成幾個單獨的計劃:即預防、響應、業務接續、業務恢復和復原計劃,也可以由每一個這樣的計劃構成總的計劃書中的不同章節。
1.基本項目
2.預防保護
作為BCP中的一個實施部分,預防措施需要在此說明。這些措施可以概括如下:
3.緊急響應
4.業務接續
從緊急響應階段到業務接續階段如何進行銜接是需要在這裡說明的。有關業務接續運營的決策過程、在哪裡以及怎樣進行業務接續、需要採取什麼行動,以及接續哪些業務到何種程度等等,都需要在此加以說明。還要為BCP團隊中的各個小組指定各自應該採取的行動,每個小組要完成指定的任務。BCP中的這一部分也稱為業務接續計劃(BRP)。
5.業務恢復
執行業務恢復的程序在此加以說明。BCP的這一部分也可稱為災難恢復計劃(DRP)。
這一部分計劃文檔的組織可以有很多種方式。一種方式就是簡單地列出所有的恢複目標(按照RPO、RTO、目標伺服器/網路等來列)。根據每一目標進行計劃分解,同時明確相應的團隊/負責人以及任務。還有一種方式就是按部門來組織。無論採用哪種方式,都應確保所有的BCP目標都能覆蓋到。
計劃的這一部分必須編排得像一本操作手冊,由一系列簡單明確的指令構成,恢復團隊完全可以按照這些指令進行恢復操作。各種操作之間的相互關係也必須加以明確說明。所有的指令和說明必須明白無誤,以免因可能引起誤解或不明了而導致時間損失。
6.復原
為業務運營復原原有場所應採取的步驟在此加以說明。需要標明每個團隊/負責人的責任和任務。
BCP運作共有6個階段,分別為:1、項目初始化、2、風險分析及業務影響、3、策略及實施、4、BCP開發、5、培訓計劃、6、測試及維護。
1、項目初始化
2、風險分析及業務影響分析
3、業務持續性策略及實施
4、BCP開發
5、培訓計劃
6、測試及維護
進行演示及有規律的測試,增強信心及效率,確保其相關的文檔時常更新。
(1)BCP的測試
制定好的BCP需要進行適當地測試才能投入使用。這一過程必須經常周期性地進行。省略了這一過程就意味著BCP只能等災難實際發生之後進行實地測試,這樣做的風險太大,恐怕任何一家企業都不敢做這種嘗試。
規劃一次BCP測試需要規定以下事項:
· 測試腳本——將可能發生的災難定義為測試的一個部分。
· 測試計劃——定義檢查程序、各種測試腳本、任務的類型、任務的參與者,比如說主要團隊或者主要團隊與預備團隊的混合行動。
簡而言之,在測試BCP時,需要執行下列行動
(2)BCP的維護
一個BCP必須周期性地加以檢查和維護。一旦有新的系統、新的業務流程、或者新的商業行動計劃加入企業的生產系統或者信息系統,引起企業整體系統發生變化時,就更應該強制啟動這種檢查程序。除此之外,像聯繫人名單的更改這樣微小的變動都可能觸發BCP計劃的更新。
每一次在進行這種檢查程序時,最好是與對BCP的改進相互結合。例如,在測試過程中發現的問題、企業為了實現連續性對機構所作的調整,或者在保持業務連續性測試時發現了更好的行動方式和計劃等等。因此,BCP的維護應該是變化和改進的結合與不斷促進。
每一次對BCP計劃所作的改動都應該及時通知所有的BCP團隊,並具體落實到每一次的培訓和測試過程中去。
最後,與業務連續性相關的資源——人和設備——也會受到維護的影響。人員會通過培訓和測試程序受到影響,設備會通過維護程序受到影響。只有當這些資源始終處於良好狀態,才能在危機發生時成為可靠和可依賴的資源。
公司沒有業務持續計劃就象是不設防,不可能阻止任何不可預測的破壞所造成的各種損失。所以公司必須認真的對待業務持續計劃。