故障容許度

故障容許度

故障容許度(英語:Fault tolerance)也稱容錯、容錯性,是使系統在部分組件(一個或多個)發生故障時仍能正常運作的能力。

簡介


如果系統的運行質量全面降低,降低的幅度與故障程度成正比,相反的,設計時未考慮故障容許度的系統,在發生很小的故障時也可能完全故障。高可用性或生命攸關係統中尤為追求容錯。
系統部分故障時維護功能的能力被稱為優雅降級、柔性降級 或從容退化(graceful degradation)。

相關概念


故障容許與極少故障的系統是不同概念。例如,西部電氣交叉開關係統的失效率為每四十年兩小時,因此具有高度的防故障能力。
但當故障發生時,它們將完全停止運行,因此並無故障容許。

衡量指標


故障容許度,是指軟體檢測應用程序所運行的軟體或硬體中發生的錯誤並從錯誤中恢復的能力。
通常可以從以下幾個方面來衡量:
1.系統的可靠性
2.系統的可用性
3.系統的可測性等
可靠性對於火箭發射之類關鍵性應用領域來說尤為重要。
而對於通用計算機來說,一個重要的指標就是系統的可用性。

可用性

可用性是指在一年的時間中確保系統不失效的時間比率。

可測性

可測性在容錯系統的設計過程中也是一個非常重要的指標,如果我們無法對某個系統進行測試,又如何能保證它不出問題呢?此外還有 MTBF(故障間的平均時間),即當系統正常運行后能堅持多長時間不失效。

可靠性

MTTR(故障修理的平均時間),即指系統要清除故障所需的時間。MTTR的大小直接影響著系統的可用性,而MTBF則反映了系統的可靠性。

舉例


故障容許度即是Fault Tolerance,確切地說是容故障(Fault),而並非容錯誤(Error)。
例如在雙機容錯系統中,一台機器出現問題時,另一台機器可以取而代之,從而保證系統的正常運行。在早期計算機硬體不是特別可靠的情況下,這種情形比較常見。
現在的硬體雖然較之從前穩定可靠得多,但是對於那些不允許出錯的系統,硬體容錯仍然是十分重要的途徑。