計算機容錯技術

計算機容錯技術

容錯計算機系統:在發生故障或存在軟體錯誤的情況下仍能繼續正確完成指定任務的計算機系統。設計與分析容錯計算機系統的各種技術稱為容錯技術;容錯技術從系統結構出發來提高系統的可靠性,與排錯技術相互補充,構成高可信度的系統;

介紹


(1)容錯(Fault-tolerance):容忍故障,考慮故障一旦發生時能夠自動檢測出來並使系統能夠自動恢復正常運行。當出現某些指定的硬體故障或軟體錯誤時,系統仍能執行規定的一組程序,或者說程序不會因系統中的故障而中止或被修改,並且執行結果也不包含系統中故障所引起的差錯。
(2)容錯計算機系統:在發生故障或存在軟體錯誤的情況下仍能繼續正確完成指定任務的計算機系統。
(3)設計與分析容錯計算機系統的各種技術稱為容錯技術;
(4)容錯技術從系統結構出發來提高系統的可靠性,與排錯技術相互補充,構成高可信度的系統;

實現方面


(1)不希望事件的檢測。不希望事件是指失效、故障、差錯等等。為容忍系統中的不希望事件,應首先對其進行檢測。
(2)損壞估價。由於一個故障的出現和它的失效結果之間可能存在延遲,故障可能已經傳播到該系統的其他地方,導致故障
的擴大。因此,在作出一個被檢測的故障有關的決定之前,有必要判定系統已被破壞的程度,這依賴於系統設計者的策略和
已有的探測技術。
(3)不希望事件的恢復。在不希望事件檢測和損壞估價之後,應採用不希望事件恢復技術,把目前的錯誤系統狀態轉換成一
個正確的系統狀態。
(4)不希望事件處理和繼續服務。確保已被恢復的不希望事件效應不會立即再現,以使系統繼續提供規定的服務。

一般階段


(1)故障限制:當故障出現時,希望限制其影響範圍。故障限制是把故障效應的傳播限制到一個區域內,從而防止污染其他區域。
(2)故障檢測:大多數失效最終導致產生邏輯故障。有許多方法可用來檢測邏輯故障,如奇偶校驗、一致性校驗都可用來檢
測故障。故障檢測技術有兩個主要的類別,即離線檢測和聯機檢測,在離線檢測情況下,進行測試時設備不能進行有用的工
作;聯機檢測提供了實時檢測能力,因為聯機檢測與有用的工作同時執行。聯機檢測技術包括奇偶校驗和二模冗餘校驗。
(3)故障屏蔽:故障屏蔽技術把失效效應掩蓋了起來,從某種意義上說,是冗餘信息戰勝了錯誤信息,多數表決冗餘設計就是故障屏蔽的一個例子。
(4)重試:在許多場合,對一個操作的第二次試驗可能是成功的,對不引起物理破壞的瞬間故障尤其是這樣。
(5)診斷 如果故障檢測技術沒有提供有關故障位置和/或性質的信息,那麼就需要一個診斷。
(6)重組:當檢測出一個故障並判明是一個永久性故障時,這時重組系統的器件以便替代失效的器件或把失效的器件與系統
的其他部分隔離開來,也可使用冗餘系統,系統能力不降低。
(7)恢復:檢測和重組(若必要的話)之後,必須消除錯誤效應。通常,系統會回到故障檢測前處理過程的某一點,並從這一點重新開始操作。這種恢復形式(一般叫卷回)通常需要後備文件、校驗點和應用記錄方法。
重啟動:如果一個錯誤破壞的信息太多,或者系統沒有設計恢復功能,那麼恢復功能也許就不可能。僅當系統未受任何破壞時,才能進行“熱”重啟(從故障檢測點恢復所有操作的)。“溫”重啟指僅有某些過程可以毫無損失地重新啟動,“冷”重啟相當於系統需要完全重新載入。
(8)修復:把診斷為故障的器件換下來,與故障檢測一樣,修復也可以是聯機進行的或者離線進行的。
(9)重構:對元件進行物理替換之後,把修復的模塊重新加入到該系統中去。對聯機修復來說,實現重構不中斷系統的工作。

容錯軟體定義


1。對自身的錯誤的作用具有屏蔽作用
2。可以從錯誤狀態恢復到正常狀態
3。發生錯誤時,能完成預期的功能
4。在一定程度上具有容錯能力
實現容錯技術主要是冗餘:
1。結構冗餘
2。信息冗餘
3。時間冗餘
4。冗餘附加技術
世紀80年代,第一代容錯技術就開始進入商用領域。美國Stratus(容錯公司)在Stratus獨特的硬體級容錯技術及VOS專有操作系統環境下,採用了Motorola M68000處理器。
1993年,Intel I860處理器在Stratus的硬體級容錯體系結構中成功應用,在軟體環境方面,還能滿足業界對開放性要求的Unix操作系統FTX,即AT&T UNIX SVR4。
1996年,容錯技術得到HP的支持,共同推出Stratus Continuum系列,將Stratus容錯結構結合HP PA-RISC對稱多處理技術。
進入21世紀以來,製造、中小企業、能源、交通等領域對伺服器,特別是中低端IA伺服器的需求激增,過去僅僅可以應用在RISC平台、HP-UX環境下的容錯產品也面臨著新的挑戰。另一方面,企業越來越依賴信息系統來完成關鍵業務的應用,同時他們不可能配備更多的專業人員來進行專職維護。雙機熱備、集群伺服器遇到難題。

如今


NEC通過與美國容錯公司多年的合作,於2001年推出了業界第一台基於IA架構、支持Microsoft Win-dows Server 2000標準操作系統環境的容錯伺服器。NEC的Express5800/ft系列在Windows及Linux平台上的可靠性達到了99.999%,這種實時保護技術來源於STRATUS連續處理技術(Fundamentals of Continuous Pro-cessing Design),它包括:
1、LOCKSTEP 技術
LOCKSTEP技術使用相同的、冗餘的硬體組件在同一時間內處理相同的指令。LOCKSTEP技術可以保持多個CPU、內存精確的同步,在正確的相同時鐘周期內執行相同的指令。該技術保證能夠發現任何錯誤,即使短暫的錯誤,系統也能在不間斷處理和不損失數據的情況下恢復正常運行。
2、安全故障(FAILSAFE)軟體
FAILSAFE 軟體和LOCKSTEP技術運行一樣,可防止很多軟體錯誤和儲運耗損。該軟體在Windows 2000/2003環境下採用熱插拔、內存鏡像、負載均衡、多點終止失效、多通道I/O等方式,大大增強了系統連續運行的穩定性。
FAILSAFE可以管理和診斷特徵捕獲,分析和通報伺服器的軟體問題,從而允許個人在軟體發生錯誤之前去糾正錯誤。FAILSAFE軟體的下列功能增強了NEC Express5800/ft系統在Windows環境中的可靠性:保護短暫的硬體故障;通過增強的驅動程序預防軟體失效;軟體問題的捕獲、分析及修正;內存數據的連續性維持;豐富的糾錯功能可以解決各種不同的錯誤。為了避免物理撞擊等意外故障,安全故障軟體還提供了自動重啟功能,能夠將宕機前CPU與內存數據即時保存下來,最大限度地避免數據的意外丟失。
3、激活服務(ACTIVE SERVICE )
當然,假如容錯伺服器的硬體發生永久性故障,儘管系統能夠正常運行,也必須及時更換硬體才能維持容錯的冗餘架構。容錯伺服器都配備了簡易直觀的圖形界面來管理監測工具,(如NECExpress5800/ft提供了ESMPRO 管理軟體),能夠對伺服器中硬體運行及故障狀態進行實時監控。

未來


容錯技術的應用已經開始從過去的證券、電信等領域進入基礎行業,如製造、能源、物流、交通及有著"7×24"不間斷運營需求的中小商業團體和政府。NEC為迎合網際網路的高速增長,為容錯伺服器引入了最新的穩定、安全、可升級、功能強大的Linux版本。
容錯的未來將會向更高的可用性、更卓越的可維護性發展。調查顯示,越來越多的用戶開始注重TCO(總擁有成本)而不是初期購買價格,更多的企業決定逐步放棄採用雙機熱備的方式來維護複雜的集群伺服器,轉而將目光瞄向具有容錯技術的平台或容錯伺服器平台。
在中國市場,NEC 公司與神州數碼的合作在一定程度上彌補了容錯伺服器在中國市場服務拓展領域的短板。這將引發國內各領域的容錯技術與應用的井噴式發展。