通過有效的故障管理提高系統(tǒng)可靠性(下)
如上所述,大多數(shù)故障是不能修正的,因此故障恢復(fù)操作比錯誤修正更受到HA設(shè)計的重視。錯誤是能觀察到的,我們必須首先了解錯誤檢測所扮演的角色。 大多數(shù)設(shè)計人員都很熟悉各式各樣錯誤檢測技術(shù),包括硬件、軟件、內(nèi)部的、外部的、后臺正確性檢查等等。在任何可靠系統(tǒng)中,都應(yīng)該盡可能開發(fā)使用這些技術(shù),但事實(shí)是有大量不同的錯誤類型必須進(jìn)行檢測,而且每一種都有與其相關(guān)的分支。
除此以外,同一種或幾個相關(guān)故障可能會引起幾乎同時發(fā)生的多個錯誤,如果處置不當(dāng)還會引起其它錯誤或故障。回想一下我們常常不能判定故障的確切性質(zhì),即意味著在大多數(shù)場合下不能用檢測錯誤的軟件就地進(jìn)行錯誤處理,因?yàn)殄e誤處理軟件自身也會遭到破壞。
在HA系統(tǒng)中,我們要將風(fēng)險減少到最小,所以如果能找到故障或者用適當(dāng)?shù)男迯?fù)操作進(jìn)行處理的話,錯誤事件應(yīng)盡可能傳到系統(tǒng)最高級。因此必須要有一個通用工具,可以將檢測到的錯誤遞交給它以進(jìn)行處理,這就是"故障管理器"。