通過有效的故障管理提高系統(tǒng)可靠性(上)
摘要:對(duì)電信運(yùn)營商服務(wù)質(zhì)量問題的關(guān)注以前僅限于通信系統(tǒng)供應(yīng)商,而現(xiàn)在擴(kuò)展到整個(gè)通信設(shè)備制造商。運(yùn)營商提供服務(wù)需要高可靠產(chǎn)品,這類產(chǎn)品對(duì)故障應(yīng)具有容錯(cuò)能力,能夠在不中斷服務(wù)的條件下進(jìn)行維護(hù)和升級(jí)。本文介紹如何利用有效的故障管理來提高系統(tǒng)可靠性,使其達(dá)到"五個(gè)九"質(zhì)量水平。
電信業(yè)中的高可靠性又稱為高可用性(High Availability),它是一種分類,一般在通信業(yè)中用于運(yùn)營商系統(tǒng),表示系統(tǒng)具有99.999%正常運(yùn)行時(shí)間(即所謂的五個(gè)九),或者說每年的停機(jī)時(shí)間小于315秒(平均每天不到1秒)。 系統(tǒng)可用性可按下式計(jì)算: 可用性=MTTF/(MTTF+MTTR) 其中MTTF為平均無故障時(shí)間,MTTR為平均修復(fù)時(shí)間。 根據(jù)該關(guān)系式可得出一些有趣的特性。從數(shù)學(xué)上講,為了提高可用性,我們可以或者增加MTTF,或者降低MTTR。把MTTF增加N倍和把MTTR降低成1/N是一樣的,但如果我們進(jìn)一步看一下公式,就能發(fā)現(xiàn)將MTTR降低50%(MTTR變成0.5MTTR)要比將MTTF增加50%(MTTF變成1.5MTTF)更好,而對(duì)這兩個(gè)參量來講,還有其它更重要的系統(tǒng)特性。下面用一些簡化的假設(shè)來看一個(gè)系統(tǒng)實(shí)例。
假設(shè)一個(gè)系統(tǒng)由N個(gè)部件組成,每個(gè)部件的MTTF都相同,記為MTTFcomp,其中部件的失效相互之間獨(dú)立,且不具有記憶性(即與以前的失效無關(guān)),同時(shí)每個(gè)部件的MTTR也一樣,那末系統(tǒng)MTTF為: MTTFsystem=MTTFcomp/N 假設(shè)有100個(gè)不同的部件,則系統(tǒng)的可用性為: 可用性=(MTTFcomp/100)/((MTTFcomp/100)+MTTR) 如果每個(gè)部件都具有五個(gè)九的質(zhì)量,即 MTTFcomp=99,999·MTTR 帶入公式可得: 可用性=0.999001,或者說是三個(gè)九的可用性。 所以要想使系統(tǒng)達(dá)到HA或者五個(gè)九的質(zhì)量,那么每個(gè)部件就必須具有七個(gè)九的可用性。這是一個(gè)簡化的說明,但我們可以看到,MTTF是系統(tǒng)每個(gè)部件的函數(shù),并且系統(tǒng)MTTF大致與系統(tǒng)中獨(dú)立的部件數(shù)成反比。當(dāng)部件數(shù)目增大時(shí),提高一個(gè)部件的MTTFcomp對(duì)整個(gè)MTTFsystem影響不大(圖1)。
MTTR一般隨系統(tǒng)的復(fù)雜性(如系統(tǒng)部件數(shù))增加而增加,但對(duì)于好的設(shè)計(jì)來講,MTTR并不直接與部件數(shù)成正比(圖2)。如果我們能基本獨(dú)立地對(duì)每個(gè)部件進(jìn)行修復(fù),那么MTTR應(yīng)該是最長系統(tǒng)部件(或部件組)修復(fù)時(shí)間的函數(shù)。所以這就是真正的目標(biāo),即找出一個(gè)能顯示該MTTR模型的設(shè)計(jì)方法,從而得到較高系統(tǒng)可用性。我們可以構(gòu)想一個(gè)數(shù)量較少的修復(fù)操作(每一次為一個(gè)MTTR),這種操作能滿足絕大多數(shù)部件失效情況,這樣整個(gè)問題就變得便于管理了。