第4章 系统可靠性分析=系统安全工程=东北大学 下载本文

4 系统可靠性分析

4.1 可靠性的基本概念

可靠性作为判断、评价系统的一个重要指标,表明“系统、设备、元件等在规定的条件下和预定的时间内完成规定的功能的性能”。通常用概率来定量地描述,则“系统、设备、元件等在规定的条件下和预定的时间内完成规定功能的概率”叫做可靠度。

系统、设备、元件等在运行过程中性能低下而不能实现预定的功能时,则称发生了故障。故障的发生是人们不希望的,但同时它又是不可避免的。对于所有有形的东西来说,故障迟早都得发生。因此,我们只能努力使故障的发生来得尽可能地晚些,希望系统、设备、元件等尽可能地可靠工作。 系统、设备、元件等从投入使用开始到故障发生经过的时间称作故障时间。若故障之后不能被修复,则称此故障时间为寿命。 由于造成故障的原因是多种多样的、随机的,所以故障的发生也具有随机性质。我们只能应用概率统计的方法对故障发生的规律加以研究。 从故障发生之难易的角度进行可靠性研究时,故障率是个重要的指标。按定义,故障率是“正常工作到某时点的客体在此以后单位时间里发生故障的比率”。在很多情况下,特别是在系统安全分析中经常使用故障率这一指标。故障率随运行时间而变化。按故障率随时间变化的趋势有减少、一定和增加三种情况,把故障分为初期故障、随机故障和磨损故障三种类型。 例如,电子元件等产品在投入使用不久便由于制造不良等原因故障大量发生,习惯上称作初期故障阶段。排除初期故障后故障率逐渐减少并趋于稳定,故障率稳定的阶段叫随机故障阶段。机械零件或易损件等随着运行时间的增加故障率逐渐增加,进入磨损故障阶段。一般的机械、设备或工业装置等既包括电子元件也包括机械零件,所以三种类型的故障都有,故障率曲线如图4.1,图中的曲线俗称浴盆(Bathtub)曲线。人类的死亡率也具有类似的情况。图4.2为100万人口的死亡率曲线。人类幼儿时由于对外界抵抗力较弱,夭折率较高。到了青壮年时死亡率较低,往往是由于意外事故等偶然的原因而丧生,死亡率近似恒定。到了老年期,由于血管、心脏等身体组织老化,死亡率上升。 表4.1为不同类型故障产生原因及防止对策 当我们把人作为系统的元素研究其可靠性时,不是研究其生命的可靠性而是研究人在执行既定的操作时,完成要求的功能的可靠性。故又可把人的可靠性明确地称为人的操作可靠性。与故障率类似,在研究人的可靠性时我们采用人失误率这一指标来表征发生操作失误的难易程度。由于人有思想,行为有较

57

大的自由度,所以关于人的可靠性研究是个复杂的课题。

图4.1 浴盆曲线 图4.2 人类的死亡率 表4.1 不同类型故障产生原因及防止对策 故障类型 现 象 期的故障 后故障减少 起重大事故 统的典型故障 ·许多电子元件的故障 应力的作用 原 因 ·制造不良 对 策 备 注 养无效 会产生这种现象 初期故障 ·新产品投产初·设计错误 ·设计审查,FMEA,·预防性维修保FTA ·闲置一段时间·使用方法错误 ·通过老化筛选等方法·检修不彻底也(制造责任的可排除 ·明确使用基准并告诉用户 ·预防性维修保养无效 数分布 ·预防性维修保养有效 ·冗余有效但不经济 ·增加投资 材料 ·正当使用 磨损故障 ·机械零部件磨·材料、部件的·预防性维修保养 损、疲劳造成的机械磨损、疲劳、故障 老化 ·小毛病往往引能性特别大) 随机故障 ·多元素组成系·系统受到随机·采用冗余设计 ·采用高可靠度元件、·故障时间呈指

4.2 故障发生规律

4.2.1 故障时间分布

设系统、设备、元件等在t=0时刻投入运行,到t时刻发生故障的概率记为F(t),可靠度记为R(t),则故障发生概率为

F(t)?Pr?T?t? (4.1)

F(0)?0

58

上述公式又称为故障时间分布函数。可靠度为

R(t)?1?F(t) (4.2)

R(0)?1当故障时间分布函数F(t)可微分时,则

dF(t) f(t)? (4.3)

dtt F(t)??f(t)dt (4.4)

0这里,f(t)称为故障概率密度函数或故障时间密度函数。当dt非常小时,f(t)dt表示在时间间隔(t,t?dt)内发生故障的概率。定义

f(t) ?(t)? (4.5)

R(t)为故障率函数。当dt非常小时,?(t)dt表示到t时刻没有发生故障而在时间间隔(t,t?dt)内发生故障的概率。该式也可写成

dF(t)dR(t)?? ?(t)? (4.6)

dt?F(t)R(t)dt把它积分

??(t)dt???lnR(t)?0???lnR(t)?lnR(0)???lnR(t)

t0tt??(t)dt R(t)?e?0 (4.7)

t于是,自初始时刻到t时刻故障发生概率为

? F(t)?1?R(t)?1?e0 (4.8) 式中故障率函数?(t)决定了F(t)的分布形式。

下面举例说明故障时间分布函数F(t)、可靠度函数R(t)、故障时间密度函数f(t)及故障率函数?(t)的实际意义。

设100个元件投入运行后的故障时刻如表4.2。用N(t)表示运行到t时刻没有发生故障的元件数,则N(0)为投入运行的元件总数;N(t?1)-N(t)为

??(t)dt在时间间隔(t-1, t)内故障的元件数。

N(0)?N(t)N(t) F(t)? ,R(t)? ,

N(0)N(0)N(t?1)?N(t)N(t?1)?N(t) f(t)? ,?(t)? 。

N(0)N(t?1)根据表4.2的故障数据按上述公式计算,结果列于表4.3。

59

表4.2 故障率计算表 经过时间 t N(t) 0 1 2 3 4 5 6 100 94 75 32 9 2 0 N(t?1)?N(t) - 6 19 43 23 7 2 0 0.06 0.25 0.68 0.91 0.98 1.00 0 0.06 0.19 0.43 0.23 0.07 0.02 0 0.06 0.20 0.57 0.72 0.78 1.00 表4.3 故障时间分布 经过时间t F(t) 0.3 0.6 0.7 1.0 1.2 1.3 1.4 1.5 1.6 1.7 1.9 2.0 2.1 2.2 2.3 2.4 2.5 2.6 2.7 2.8 0.03 0.04 0.05 0.06 0.09 0.12 0.13 0.14 0.15 0.21 0.24 0.25 0.27 0.31 0.36 0.43 0.49 0.54 0.57 经过时间t F(t) 2.9 3.0 3.1 3.2 3.3 3.4 3.5 3.6 3.7 3.8 4.0 4.1 4.2 4.6 4.7 4.9 5.0 5.2 5.7 0.61 0.67 0.68 0.73 0.74 0.79 0.81 0.83 0.87 0.88 0.91 0.92 0.93 0.94 0.96 0.97 0.98 0.99 1.00 表4.3中的时间为单位时间,若按较小的时间间隔来计算故障时间分布函

60

数,则得到表4.3的结果。通过实际故障数据计算得到的故障时间分布被称作经验分布函数。当元件总数(数据数)无限增加,趋近无穷大时,经验分布函数的极限函数即为该种元件的真正故障时间分布函数。图4.3为经验分布曲线。

图4.3 经验分布曲线 4.2.2 典型的故障时间分布 4.2.2.1 指数分布

随机故障的场合故障率为常数,?(t)??,故障时间分布变为指数分布: F(t)?1?e??t (4.9) f(t)??e??t (4.10) 故障率?是指数分布唯一的分布参数,也是一个最具有实际意义的参数。它表示单位时间里发生故障的次数。 指数分布的数学期望E(x)为

??? E(x)??tf(t)dt??R(t)dt??e??tdt?0001??? (4.11)

它等于故障发生率?的倒数,通常记为?,称作平均故障时间(Mean Time to Failure,MTTF)。在系统、设备、元件故障后经修理被重复使用的场合,它被称作平均故障间隔时间(Mean Time Between Failures,MTBF)。有时,统称为平均寿命。

指数分布的方差 V(x)为

V(x)?E?x?E[x]??E[x]??E[x]???t2f(t)dt?2220???1?2?1?2 (4.12)

指数分布的方差比较大。当 t??,即时间为平均无故障时间时,发生故障的概率为

61

F(?)?1?e????1?e?1?0.633

例1 某设备运转7000h共发生了10次故障。若故障间隔时间服从指数分布,试计算该设备的平均故障间隔时间及从开机运转到工作1000h后的可靠度。

解:平均故障间隔时间为

7000?700(h) ??10工作1000h后的可靠度为 R(1000)?e?1000700?e?1.429?0.239

例2 某种元件的平均故障时间为5000h。试求使用125h后的可靠度。

125?0.025<<1,利用级数展开式进行计算: 解:因?t?500011 R(t)?e??t?1??t?(?t)2?(?t)3???1??t

2!3! R(125)?0.975

4.2.2.2 威布尔分布

威布尔分布是瑞典的威布尔在求算链强度时得到的一种分布。按此分布,故障时间分布函数为 F(t)?1?e可靠度函数为 R(t)?e?tm?tm? (4.13)

?  (4.14)

?tm故障时间密度函数为 f(t)?m?上述公式中,?为尺度参数;m为形状参数。

tm?1e? (4.15)

故障时间服从威布尔分布时,故障率函数为

m ?(t)?tm?1 (4.16)

? 图4.4 和4.5 分别为威布尔分布的f(t)和?(t)。

威布尔分布的数学期望和方差分别是

11 E[X]??m?(1?) (4.17)

m 62

2?21????? V[X]????(1?)???(1?)?? (4.18)

m?m?????1式中,?(1?)为?分布。

?m2m

图4.4 威布尔分布的f(t) 图4.5 威布尔分布的?(t)

在威布尔分布中m是一个具有实质意义的参数。当m取不同的数值时,故障率?(t)随时间的变化呈现如下情况:

1)m<1时,?(t)随时间单调减少,对应于初期故障;

2)m=1时,?(t)恒定,威布尔分布变为指数分布,对应于随机故障; 3)m>1时,?(t)随时间单调增加,对应于磨损故障。

由于威布尔分布可以描述不同类型的故障,因而在可靠性工程中得到了广泛的应用。

4.2.2.3 关于故障时间分布函数

具有下列性质的统计分布函数F(x)(???x??)都可以直接用作故障时间分布函数:

1)F(??)?0; 2)F(??)?1;

3)若x1?x2,则F(x1)?F(x2); 4)limF(x??)?F(x)。

??0 还有许多函数,如正态分布、对数正态分布、均匀分布、Γ分布、β分布等都可以用作故障时间分布函数。在实际工作中若故障时间不服从于某种特定的分布,而且用统计检验的方法也不能严格地判别出它的拟合性,那么从工程的角度出发,选择一种比较易于说明故障现象本质的函数,或选择一种在数学模型方面容易处理的函数(如指数函数、威布尔函数等)都是可以的。 4.2.3 故障次数分布

当故障时间分布服从指数分布,即故障发生率?为常数时,一定时间间隔

63

内故障发生次数N(t)服从泊松(Poisson)分布。

自时刻t?0到 t时刻发生n次故障的概率记为

Pn(t)?Pr?N(t)?n?,n?0,1,2,? 。 (4.19) 则Pn(t)为参数?t的泊松分布

(?t)n??te (4.20) Pn(t)?n!到t时刻发生不超过n次故障的概率:

n(?t)k??t Pr?N(t)?n???e (4.21)

k!k?0 故障次数N(t)的数学期望E[N(t)]和方差V[N(t)]分别为

(?t)n??t E[N(t)]??nPn(t)??ne??t (4.22)

n!n?0n?1??

V[N(t)]?E[N2(t)]??E[N(t)]?

?n?02 ??n2Pn(t)?(?t)2??t (4.23) 即,故障次数的数学期望和方差都是?t。

4.3 故障数据处理

故障数据处理是通过对收集的故障数据进行统计处理而弄清故障发生规

律的工作。通过专门的试验或观测可以获得故障时间数据;根据获得的故障时间数据可以确定其故障时间分布函数。 故障时间数据通过试验观测获得,这些试验被称作可靠性试验。可靠性试验有多种方式,按试验地点分为现场试验和实验室试验;按试验结束方式分为完整试验和截尾试验,前者进行到全部试件故障为止,后者进行到若干试件故障为止。截尾试验又分为定时截尾方式和定数截尾方式,前者进行到规定的试验时间停止试验;后者进行到规定数目的试件发生故障时停止试验。按试件故障后是否用新试件更换分为更换法和不更换法。各种试验方式都有各自的优缺点,应该根据实际情况选择。

由于故障的发生具有随机性质,即使同一批试件在同一条件下工作,故障时间的数据也是不同的,只能利用统计分布来描述。

根据概率论中的大数定理,当收集到故障数据的数量(统计学中称为样本)相当多时,故障时间分布函数才是一定的。但是,在实际工作中受各方面条件的限制,往往收集到的故障数据很有限。因此,如何应用统计学的方法由较少的故障数据来确定其分布函数就是一个十分重要的问题。

64

在已知统计分布函数形式的场合,该分布函数完全由它的参数值确定,确定了参数值则该分布函数即可确定。因此,故障数据处理的重要内容是根据故障时间数据推断出分布函数的参数值。此外,也可以通过统计推断由故障时间数据估算出表征故障发生性质的特征量-平均故障时间或平均故障间隔时间的值。

当不知故障时间分布函数形式时,则需要用统计检验的方法确定其分布函数形式。

统计分布的参数估计包括点估计和区间估计两方面的问题。前者在于推断出分布参数的一个参数值;后者在于考察该参数值的精确程度,即其真值所在的区间范围。

参数点估计的方法以最大似然法和矩法最常用,这里仅介绍最大似然法。最大似然法的基本思想是,如果在一次观测中一个事件出现了,那么我们认为该事件出现的可能性很大。

设我们获得的n个故障时间数据分别是t1,t2,t3,?,tn,则首先构造一个n变量的函数-似然函数,通过求解该函数极值来得到分布参数的估计值。 4.3.1 指数分布的参数估计

4.3.1.1 完整试验的点估计

进行完整试验时观测全部n个试件故障,记录其故障时间t1,t2,t3,?,tn。构造似然函数

L(t1,t2,t3,?,tn)??f(ti,?) (4.24)

i?1n式中,f(ti,?)-故障时间密度函数,在指数分布的场合,

f(ti,?)??e??ti (4.25) 上式可以写成

L(t1,t2,t3,?,tn)??f(ti,?)??eni?1n???tii?1n (4.26)

为求得使似然函数最大的?的估计值,对该式两端取对数,并令一阶偏导数为零:

lnL(t1,t2,t3,?,tn)?nln????ti (4.27)

i?1n?为 得到参数?的估计值???n (4.28) ??ti?1ni 65

?为 相应地,可以得到平均故障时间?的估计值??? ?1??ti?1ni?n4.3.1.2 截尾试验的点估计 一般地,定数截尾试验较定时截尾试验得到的估计值更接近于真值,因此介绍定数截尾试验方式时的点估计。

设定数截尾试验进行到n个试件中r个试件故障即结束试验,r个试件的故障时间分别为t1,t2,t3,?,tr,其中tr??。即,第一次故障发生在时刻t1,第二次故障发生在时刻t2,?,第r次故障发生在时刻tr??。于是,余下的n?r个试件不发生故障的概率为

f(t1;?)dt1f(t2;?)dt2?f(tr;?)dtr?1?F(?)?n?r (4.29)

??f(ti;?)dti?1?F(?)?i?1rn?r

(4.30) 式中,F(t)-故障时间分布函数,其概率密度函数为f(t;?)。

n! 再考虑这r次故障发生在哪r个试件上,其可能的组合数是,所以

(n?r)!r次故障发生在试验结果那样的r个试件上的概率为

rn!n?r (4.31) f(t;?)dt1?F(?)???ii(n?r)!i?1 构造似然函数为

rn!n?r L(t1,t2,?,tn;?)? f(t;?)1?F(?)???i(n?r)!i?1rn!n?r ??e??ti?1?F(?)? (4.31) ?(n?r)!i?1? 求满足下式的参数?的估计值? 得到

?(lnL)?0 ??r?? ??ti?1r (4.32)

i?(n?r)??为 平均故障时间?的估计值? 66

?? ??ti?1ri?(n?r)?r (4.33)

4.3.1.3 区间估计

前面的点估计法可以由故障数据推断故障率?或平均故障时间?的一个估计值,但是人们往往不以得到近似值为满足,还要估计误差,即要求更确切地知道近似值的精确程度,也就是故障率?或平均故障时间?的真值所在的范围,即置信区间。所谓区间估计就是推断在给定置信度下的置信区间。

设显著性水平为?,则置信度为1??。在置信度1??一定时,截尾试验的平均故障时间?的置信区间为

????2T2T ?,? (4.34) ????2(2r;)?2(2r;1?)?22????式中,?2(2r;)和?2(2r;1?)为自由度2r的?2分布;

22 T??ti?(n?r)? (4.35)

i?1r 应该注意到,当故障时间分布为指数分布时,由试验的故障数据得到的平

均故障时间的估计值,其置信区间的大小取决于故障试件数r而与试件总数n无关。因此,定数截尾试验较定时截尾试验更科学。

对于完整试验,将公式(4.35)中的r用n代替即可。

例如,已知某种元件的故障时间分布服从指数分布。随机地抽取15个试件进行故障试验。规定故障数达到5时即停止试验,得到的故障时间分别为1410,1872,3138,4218,6971h。根据公式(4.35)可算得 T??ti?(n?r)?

i?1r =(1410+1872+3138+4218+6971)+(15-5)×6971 =87319 (h)

由式(4.33)可算得平均故障时间?的估计值为

??17464 (h) ? 设置信度为95%,根据公式(4.34)算得平均故障时间?的置信区间为

[ 8526,5386.7](h) 4.3.2 威布尔分布的参数估计

可以应用最大似然法求出威布尔分布的两个参数m和?,但是它涉及到求

67

解超越方程等复杂的数学问题,所以工程实践中常常采用图解法来进行参数估计。

威布尔分布的可靠度为 R(t)?e?tm?

将该式两端取倒数,然后再取两欢对数,得到直线方程为

1 lnln?mlnt?ln? (4.36)

R(t)1 以lnt为横坐标,lnln为纵坐标,则服从威布尔分布的故障数据应该

R(t)在该坐标图上基本上呈一条直线。直线的斜率是威布尔分布的形状参数m;直线在纵轴(lnt=0)上的截距为ln?。这样,利用专门的威布尔概率纸(对数

?。 ?和?坐标纸)就可以方便地求出分布参数m和?的估计值m 然后,按下式计算平均故障时间?的估计值:

11?????m ??(1?) (4.37) ?m按下式计算方差:

22??21????m V[X]????(1?)???(1?)?? (4.38)

m?m????? 例如,用某种元件的15个试件做故障试验,试验过程中10个试件发生了故障,其故障时间分别为190,360,610,800,850,1100,1340,1570,1790和2240h,求分布参数m、?和平均故障时间?的估计值。 表4.4 试件的故障时间及R(t)和F(t)

故障时间,10h 1.9 3.6 6.1 8.0 8.5 11.0 13.4 15.7 17.9 22.4

2 R(t),% 93.7 87.5 81.2 75.0 68.7 62.5 56.2 50.0 43.7 37.5 68

F(t),% 6.3 12.5 18.8 25.0 31.3 37.5 43.8 50.0 56.3 62.5

在这里,以102h作为时间单位。

首先求出与各试件故障时间相对应的可靠度。在进行可靠性试验时,到某时刻的可靠度R(t)可按下式计算:

没有故障的试件数 R(t)? (4.39)

试件总数在试件总数小于20的场合,通常按下式计算

没有故障的试件数 R(t)? (4.40)

试件总数+1算得的R(t)列于表4.4。

然后把数据点标在威布尔概率纸上,并直观地拟合出一条直线(见图4.6)。直线在纵轴上的交点N的纵坐标是a=-3.5。过点(1,0)画一条与直线平行的平行

?=-1.2。线作辅助线,辅助线与纵轴的交点M的纵坐标即为直线的斜率,得m

计算参数?的估计值:

???e???10?2m ??8318h 计算平均故障时间?的估计值:

11?????m ??(1?)?1848?0.939?1735h ?m计算均方差?:

212????(1?)?[?(1?)]??1848?0.78?1441h ??????mm??1?m12

图4.6 威布尔概率纸求解分布参数

69

在威布尔分布参数m、?皆为未知的场合很难进行区间估计。如果已知参数m,则可以按下式估计置信度为1-?的定数截尾试验的?的置信区间:

????2T2T ?,? (4.41) ????2(2r;)?2(2r;1?)?22??式中,T??tim?(n?r)?m

i?1r4.3.3 非参数估计

非参数估计又称可靠度估计。当故障时间分布函数形式未知时,直接由故

障数据推断可靠度或故障发生概率。

设F(t)是故障时间分布函数,R(t)?1?F(t)为可靠度函数。无论F(t)的形式如何,都假定F(t)是在[0,1]区间上的均匀分布,则可以在此前提下估计可靠度或故障发生概率。

1) 可靠度的点估计

用n个试件进行试验,到?时刻共有r个试件发生故障,则可靠度的点估计为

?(?)?n?r (4.42) Rn相应地,故障发生概率F(t)的点估计值为

?(?)?1?R?(?)?r (4.43) Fn2) 可靠度的区间估计

定数截尾试验的场合,可靠度的置信上限Ru和置信下限Rl 分别为

1 Ru? (4.44)

??r?2r1??F2(n?r?1)(1?)?n?r?12??1 Rl? (4.45)

r???2r1??F2(n?r?1)()?2?n?r?1???2r(1?)F()为F分布,其数值可以查表得到。 式中,F22(r和n?r?1)2(n?r?1)22

4.4 简单系统可靠性

系统是由相互作用、相互依存的若干元素组成的具有特定功能的有机整

体,系统可靠性与元素的可靠性有关。

70

根据元素之间功能关系的复杂程度,可以把系统划分为简单系统和复杂系统。应该注意,这里并没有涉及组成系统的元素数目的多少,究竟是简单系统还是复杂系统主要取决于元素之间的功能关系。例如,由许多铁环连串联结成的铁链,无论铁环的数目有多少都是简单系统;桥联系统虽然只有五个元素,却属于复杂系统。

按元素故障与系统故障之间的关系,可以把系统划分成两类,一类是系统中任何一个元素故障都会导致系统故障的系统,我们称它为基本系统或串联系统。另一类是某元素或某些元素的故障不一定能够造成系统故障的系统,我们称它为冗余系统。 所谓冗余(Redundancy)是把若干元素或手段付加于系统的元素或组成部分上,从而使得即使系统元素或组成部分发生故障也不至造成系统故障的方法。也即是说,从系统功能的角度看,添如一些即使没有它们系统也可以发挥功能的多余的东西来提高系统的可靠性。冗余方式很多,常见的有以下几种: 1)并联冗余方式

并联冗余时付加的元素与原来的元素同时工作。 2)备用冗余方式

备用冗余时冗余元素通常处于备用状态,只有当原来的元素发生故障时才投入工作。按备用的冗余元素所处的状态把备用冗余分成三种:

.冷备用。备用元素在完全不工作状态下备用,处于冷备用的元素其故障概率为0。

.热备用。备用元素与主要元素完全同样地运行,一旦主要元素发生故障则备用元素立即取代它。

.温备用。处于冷备用和热备用中间的备用状态。 3)表决冗余方式

表决冗余方式又称n中取k冗余方式,组成系统的n个元素中至少有k个正常就能保证系统正常工作。换言之,n个元素中只有n?k?1或更多个元素故障时系统才故障。表决冗余方式常用于提高安全监控系统的可靠性。

在实现冗余时,可以采取付加元素的方法(元素冗余),也可以付加系统(系统冗余)。但是,理论和实践都已经证明,元素冗余比系统冗余效果更好。 4.4.1 串联系统可靠性

串联系统是组成系统的元素在实现系统功能方面缺一不可的系统,因此又称作基本系统。这类系统的基本特征是,组成系统的任一元素发生故障都会导致系统故障,并且系统故障时间ts与元素故障时间t1,t2,?,tn之间有如下关系:

71

ts?mint1[,t2,?,tn] (4.46) 即,系统故障时间等于最先发生故障的元素的故障时间。

当串联系统的各元素的故障时间相互统计独立时,系统可靠度Rs(t)与元素可靠度Ri(t)间有如下关系:

Rs(t)??Ri(t) (4.47)

i?1n相应地,系统发生故障概率Fs(t)与元素发生故障概率Fi(t)之间具有如下关系:

Fs(t)?1??[1?Fi(t)] (4.48)

i?1n 串联系统的故障率?s(t)等于各元素故障率?i(t)之和: ?s(t)???i(t) (4.49)

i?1n 当元素的故障时间分布为指数分布时,即?i(t)??i时,系统平均故障时间?s与元素平均故障时间?i之间具有如下关系:

11?n ?s? (4.50)

1111(????)??1?2?ni?1?i显然,串联系统的平均故障时间小于其中任一元素的平均故障时间;串联系统

中包含的元素越多,越容易发生故障。 4.4.2 并联系统可靠性

并联系统是常见的一种冗余系统。并联系统的基本特征是,只有组成系统的全部元素都故障时系统才故障,并且系统的故障时间ts与元素故障时间t1,t2,?,tn之间有如下关系:

[,t2,?,tn] (4.51) ts?maxt1即,系统故障时间等于最后发生故障的元素的故障时间。

当并联系统的各元素故障时间相互统计独立时,系统可靠度Rs(t)与元素可靠度Ri(t)之间具有如下关系:

Rs(t)?1??[1?Ri(t)] (4.52)

i?1n相应地,系统发生故障的概率Fs(t)与各元素故障概率Fi(t)之间具有如下关系:

Fs(t)??Fi(t) (4.53)

i?1n 72

并联系统的故障率?s(t)与元素故障率?i(t)之间呈现复杂的关系,很难用简单明晰的一般表达式来描述,只能根据具体的系统来求解。例如,由故障时间分布服从指数分布的二元素组成的并联系统,系统故障率与元素故障率之间的关系可表达为

?1e??1t??2e??2t?(?1??2)e?(?1??2)t ?s(t)? (4.54)

e??1t?e??2t?e?(?1??2)t

图4.7 二元素并联系统的故障率

由该式可以绘出图4.7的曲线。当二元素不是相同元素,即?1??2时,随着时间的增加,系统故障率?s(t)首先增加,然后减少。当二元素是相同元素时,?s(t)为非减的。此外,我们还可以得到如下的认识:

1)系统故障率小于其中元素故障率较大者,即

?s(t)?max?[1,?2] 2)随着时间的无限增加,系统故障率趋近于其中元素故障率较小者,即 lim?s(t)?min[?1,?2]

t?? 一般地,并联系统采用相同的元素组成。在这种场合,如果各元素的故障时间服从指数分布,则系统平均故障时间?s与各元素平均故障时间?0之间有如下关系

11???) (4.55) 2n该式表明,随着并联系统元素数目的增加,系统平均故障时间增加,可以提高系统的可靠性。但是,增加的第n个元素只能取得1/n的效果。再考虑成本、

?s??0(1?体积等因素,并联系统元素不宜过多。 4.4.3 表决系统可靠性

表决系统是组成系统的n个元素中至少有k个元素正常时系统才能正常运行的系统。推而广之,串联系统是k?n的表决系统,即n中取n的系统;并联系统是k?1的表决系统,即n中取1的系统。 一般地,构成表决系统的元素都是同种元素,并认为它们有相同的故障概率或可靠度。在各元素故障时间分布服从指数分布的情况下,3中取2系统的

73

可靠度为:

23 Rs(t)?3R0?2R0?3e?2?0t?2e?3?0t (4.56) 式中,?0 —各元素的故障率。

相应地,系统故障概率为

Fs(t)?3F02?2F03?1?3e?2?0t?2e?3?0t (4.57)

系统故障率为

6?0(1?e??0t) ?s(t)? (4.58) ??0t3?2e该函数为时间t的单调增函数(见图4.8),当t?0时?s(t)?0 ,当t??时

?s(t)?2?0 。在运行时间较短的场合,系统故障率小于单一元素的故障率。系统平均故障时间?s 与元素平均故障时间?0之间有如下关系:

5 ?s??0 (4.59)

6系统平均故障时间小于单一元素平均故障时间。

图4.8 三中取二系统的故障率

图4.9 表决系统故障概率

表决系统的故障概率函数呈S型曲线,介于相同数量元素组成的串联系统和并联系统故障概率曲线之间(见图4.9)。当元素故障概率较高时系统故

74

障概率接近于串联系统故障概率;当元素故障概率较低时系统概率接近于并联系统概率。

4.4.4 备用系统可靠性

备用系统是一个主要工作元素和若干个备用元素组成的冗余系统。备用系统工作时一旦主要元素发生故障转换机构则将备用元素投入运行。除了元素故障之外,转换机构故障也会导致系统故障。为简单起见,这里仅讨论主要元素故障时转换机构能够可靠地把备用元素投入运行的理想情况。 1)冷备用系统。

设冷备用系统由相同的一个主要元素和n个备用元素组成。 若各元素的故障时间分布为指数分布,则系统可靠度Rs(t)为

(?0t)k??0t Rs(t)?? (4.60) ek!k?0式中,?0—各元素的故障率。

冷备用系统的平均故障时间?s等于元素平均故障时间?0 之和: ?s?(n?1)?0 (4.61)

n 2)温备用系统

温备用系统的备用元素在备用期间也处于运行状态,但是备用期间的运行状态和替代主要元素的工作期间的运行状态又不相同,于是,备用元素的故障率可能随着运行状态发生变化。在研究系统故障问题时,温备用系统较冷备用系统复杂得多。

作为简要的介绍,这里仅讨论两个独立元素组成的温备用系统:一个主要元素和一个备用元素。设两个元素的故障时间均服从指数分布,主要元素的故障率为?1,备用元素在备用状态下的故障率为?0,其工作状态下的故障率为?2,则系统可靠度Rs(t)为 Rs?e??1t??1[e??t?e?(??1??0??221??0)t] (4.62)

系统平均故障时间?s 为

?11 ?s? (4.63) ??1?2(?1??0)

4.5 可维修系统可靠性

4.5.1 维修的基本概念

75

如果系统工作一段时间后发生了故障,一般地经过修理就能够恢复到原来的工作状态。系统发生故障后,寻找故障的部位并进行修理,直到最后验证系统确实已经恢复到了正常状态等一系列工作称作维修。由于故障发生的原因、部位、系统所处环境及维修技术方面的不同,维修所需要的时间往往是个随机变量。系统维修性是指在规定的条件下,规定的时间内,按规定的方式和方法维修时使系统恢复到正常状态的可能性。系统维修性涉及维修度、维修率、平均维修时间和可用度等一系列数量指标。 1)维修度

与用可靠度定量地描述可靠性一样,我们用维修度(Maintainability)来定量地描述维修性。按定义,维修度是可维修系统在规定的条件下维修时,在规定的时间内完成维修的概率,通常用M(t)表示。对于相同的时间t来说,越容易维修的系统其M(t)越大。一般地,维修度函数可以表达为

?(t)dt?0 M(t)?1?e (4.64) 式中?(t)为维修率。

?t 维修度概率密度函数用m(t)表示

dM(t) m(t)? (4.65)

dt2)维修率

维修进行到某一时刻上尚未完成维修,在此后单位时间里完成维修的比率,一般地它与时间t有关,是时间t 的函数,记为?(t)。

当不考虑维修率受时间的影响或维修率与时间无关时,维修率为常量,?(t)??。这时,系统维修度函数可以写为

M(t)?1?e??t (4.66) 系统维修概率密度函数可以写为

m(t)??e??t (4.67) 3)平均维修时间

当系统维修率为常数时,维修度函数服从指数分布,维修率的倒数为平均维修时间(MTTR,Mean Time to Repair):

1? (4.68) MTTR? 4)可用度

可用度(Availability)是一个衡量系统被利用情况的指标。按定义,可用度是系统在特定的瞬间能维持其功能的概率,它是时间t 的函数,通常记为A(t)。对于故障率为?,维修率为?的系统,其可用度A(t)可用下式表示:

76

?e?(???)t A(t)? (4.69) ???????? 在系统长期运行的场合,即t??时,上式中的第二项趋近于 0。于是, ?MTBF A(?)? (4.70) ????MTBF?MTTR 在可靠性工程中,把前式描述的可用度称为瞬时可用度;把该式描述的可

用度称为稳态可用度。 4.5.2 马尔可夫过程

在研究可维修系统的可用度时,涉及到概率论中的随机过程问题。 从故障的角度考察系统状态,可以把系统状态分为正常状态(非故障状态)S和故障状态F两种状态。处于S状态的系统由于发生故障而转移到F状态;处于F 状态的系统经过维修恢复到S状态。这里由一种状态向另一种状态的转移完全是随机的,并且在状态转移中起作用的只是系统当前的状态,此前的状态对该次转移没有任何影响。

一般地,若状态间的转移是随机的,则该过程称为随机过程。状态间转移概率与有限次转移以前的状态完全无关的过程称为马尔可夫(Markov)过程。马尔可夫过程的状态间转移概率是过去n个状态下的条件概率。当状态间的转移概率仅由一次转移以前的状态决定时,即n?1时,马尔可夫过程为简单马尔可夫过程。

图4.10 状态转移图

状态间的随机转移情况可以用状态转移图来表示,图4.l0为状态转移图的例子。

若系统有r个状态,S1,S2,?,Sr ,把系统状态Si转移到Sj的条件概率记为Pij,则可以用下面的转移矩阵来表示系统状态转移情况: S1S2?Sr

77

S1S2 P??SrP11P21?Pr1P12P22?Pr2P1rP2r (4.71) ?Prr 转移矩阵中的第i行表示系统从状态Si转移到S1,S2,?,Sr状态的概率,并且

Pi1?Pi2???Pir?1 (4.72) 系统处于状态Si的概率用xi 表示,则固有向量(或称特征向量)为

X?(x1,x2,?,xr) (4.73) x1?x2???xr?1 (4.74) 根据下式可以求得系统处于某一状态的概率xi:

XP?X (4.75)

例如,系统只有S和F两种状态的场合,如果系统故障时间和维修时间分

布均为指数分布,系统在瞬间发生故障的概率为?,完成维修的概率为?,则

F S P?S1??F?1???1??

设系统处于状态S的概率为x1,处于F状态下的概率为x0,则 (x1x0)?1????(x1x0)

解方程组

x1?x0?1?? ?(1??)x1??x0?x1

??x?(1??)x?x00?1得到系统处于状态S的概率,即系统可用度为 A?x1?????

又如,在由两相同元素组成的热备用系统的场合,如果元素的故障时间分布和维修时间分布服从指数分布,瞬间发生故障的概率为?,完成维修的概率为?,则系统可能处于三种状态:两元素都正常的状态S2,一个元素正常的状态S1 和两元素都故障的状态S0 。这时的转移矩阵为

S1S0 S2 78

S21?2? P?S12?0?0S01?(???)?

2?1?2?

图4.11 热备用系统状态转移图

其状态转移图为图4.11。由于两元素同时运转,所以由状态S2 转移到状态S1的概率为2?。设系统处于状态S2的概率为x2,处于状态S1的概率为x1,处于状态S0的概率为x0,则

1?2? (x22?0x1x0)

x1x0)?01?(???)??(x22?1?2?

解方程组

x2?x1?x0?1??(1?2?)x2??x1?x2? ?

2?x?[1?(???)]x?2?x?x2101???x1?(1?2?)x0?x0?得到系统可用度为

?2?2?? A?x2?x1? 2(???)

4.6 相关结构理论

巴隆(R.E.Barlow)和普罗斯钦(F.Proschan)提出了相关结构理论(Coherent system theory),可以研究一般系统的可靠性问题。 4.6.1 相关系统

4.6.1.1 系统结构函数

假设我们研究的系统元素只取正常状态或故障状态两种状态之一;相应地,由这样的元素组成的系统也只能取这两种完全对立的状态之一。 为了描述元素状态和系统状态,我们引入二值变量和二值函数。所谓二值

79

变量是其取值只能取0或1的变量;二值函数是其取值只能取0或1的函数。 用二值变量xi来表示第i个元素的状态,则

?0 当元素故障时 ? xi?? i?1,2,?,n (4.76)

?1 当元素正常时?

同样,用二值函数表示系统的状态,则

?0 当系统故障时? ??? i?1,2,?,n (4.77)

?1 当系统正常时? 若系统的状态完全取决于元素的状态,则系统的结构函数为

???(X) (4.78)

其中,X?(x1,x2,?,xn)。系统中元素的数目n被称作系统的阶,由n个元素组成的系统被称作n阶系统,其结构函数被称为n阶结构函数。 串联系统的结构函数可以表达为

?(X)??xi?minx(1,x2,?,xn) (4.79)

i?1n 并联系统的结构函数可以表达为

?(X)??xi?maxx(1,x2,?,xn) (4.80) 式中,?xi?1??(1?xi)。

i?1i?1ni?1nn4.6.1.2 相关系统结构函数

(1)元素与系统相关

如果某元素i不论xi的取值如何总有固定的?,则称元素i与系统不相关,即对于所有的(?i,X)都有?(1i,X)??(0i,X),否则元素i与系统相关。这里(?i,X)的意义如下:

(?i,X)?(x1,x2,?,xi?1,?,xi?1,?,xn) (0i,X)?(x1,x2,?,xi?1,0,xi?1,?,xn) (1i,X)?(x1,x2,?,xi?1,1,xi?1,?,xn)

对于任意n阶系统,对于所有的元素i都有下式成立:

?(X)?xi?(1i,X)?(1?xi)?(0i,X) (4.81) 利用这个公式,可以通过n?1阶结构函数来表现n阶结构函数。反复的利用

80

这个公式可以得到下面的公式: ?(X)???xyi?1nyii(1?xi)1?yi?(y) (4.82)

式中,y—状态矢量;

yi—二值变量xi的取值,0或1。

例如,参照表4.5的状态矢量,两元素串联系统的结构函数可以写成

0(1?x2)?0 ?(x1,x2)?x1(1?x1)0x2(1?x2)0?1?x1(1?x1)0x2000(1?x1)x2(1?x2)0?0?x1(1?x1)x2(1?x2)?0 ?x1 ?x1x2 表4.5 状态矢量 y1 y2 1 0 1 0 ?(y) 1 1 0 0 1 0 0 0 在这里,我们还要引入对偶结构的概念。对偶结构的概念被用以研究只取两种对立状态之一的元素组成的系统,如安全监测系统的可靠性问题,以及故

障树分析等。

设有结构?(X),则它的对偶结构为

?D(X)?1??(1?X) (4.83) n元素组成的串(并)联系统其对偶为n元素组成的并(串)联系统;n中取k的表决系统其对偶为n中取(n?k?1)的表决系统。

(2)相关系统及其性质

如果一个系统的结构函数是增函数,并且每个元素都与之相关,则该系统为相关系统。对于一个实际系统来说,如果改善了其中一个元素的性能反倒引起系统性能的降低,那么这样的系统没有如何实际意义。 设?(X)为n阶相关系统的结构函数,则

1)该系统的性能,其上限相当于一个并联系统,其下限相当于一个串联系统,即

?xi?1ni??(X)??xi?1ni (4.84)

2)元素的冗余较系统的冗余效果更好,即

?(X?Y)??(X)??(Y) (4.85)

81

(3)相关系统可靠度

根据相关系统结构函数可以得到系统的可靠度函数。

假设系统的元素是统计独立的,并且各元素的状态是随机的。元素i处于正常状态的概率(可靠度)等于状态变量xi的数学期望: Ri?Pr[xi?1]?E[xi] i?1,2,?,n (4.86) 类似地,系统处于正常状态的概率(可靠度)等于系统结构函数的数学期望: Rs?h(Ri)?Pr[?(X)?1]?E[?(X)] (4.87) 4.6.2 概率分解法计算系统可靠度

一类复杂系统是有交叉连结的系统。由于交叉连结的存在,使得本来简单的系统变得复杂了,不能按简单系统来处理。概率分解法(Partial pivotal decomposition)是计算有交叉连结系统可靠度的一种方法。

对式(4.81)等号两端取数学期望,得到概率分解法计算系统可靠度的公式如下:

Rs?Ri?h(1i,R)?(1?Ri)?h(0i,R) (4.88) 利用概率分解法计算有交叉连接系统可靠度时,首先选定交叉连接的一个元素,再按上式计算该元素可靠和故障两种情况下系统可靠的条件概率的和。如果系统有多处交叉连接,则依次进行这样的处理,直到被计算的条件概率为简单系统可靠度为止。

例如图4.12所示的二极网络系统,有交叉连接L。 x3 L x4 x2 x5 图4.12 二极网络系统

我们选定交叉连接元素x2进行概率分解,则系统的可靠度Rs为: Rs?R2?h(12,R)?(1?R2)?h(02,R)

设各元素为相同元素,且故障时间分布服从指数分布: Ri?e??t 则系统可靠度Rs为:

Rs?R2[1?(1?R3)(1?R4)(1?R5)]?(1?R2)R1[1?(1?R3)(1?R4)] 最后得 Rs?5e?2?t?6e?3?t?2e?4?t 系统平均故障时间?s为:

82

?s??Rsdt?0?1?

4.6.3 最小径集合与最小割集合 4.6.3.1 最小径集合

考察系统可靠性框图,可以发现从系统输入端到输出端之间有若干途径,即元素的集合,只要其中的元素都正常就能使系统正常发挥功能。

在状态矢量中,使?(X)?1的矢量是径矢量,与径矢量相对应的元素的集合是径集合(Path set)。

当Y?X时能使?(Y)?0的径矢量是最小径矢量,与最小径矢量相对应的元素的集合是最小径集合(Minimal path set)。 从物理意义上讲,只要其中的元素正常就能使系统正常发挥功能的元素的集合是径集合。例如图4.12所示的系统中,集合(x1,x3),(x1,x4),(x1,x3,x4),(x2,x5),(x2,x3),(x2,x4),(x2,x3,x4),(x2,x3,x4,x5),(x1,x2,x3,x4,x5)是径集合。

如果径集合中所有的元素正常对系统正常发挥功能是充分而且必要的,则该径集合为最小径集合。显然,在上述的径集合中,集合(x1,x3),(x1,x4),(x2,x5),(x2,x3),(x2,x4)是最小径集合。

从系统正常发挥功能的角度,最小径集合中的元素相当于串联连接;系统是由最小径集合并联构成的。当构成系统的不同最小径集合中没有相同元素时,系统可靠度可以按下式计算:

Rs?1??(1??Ri) (4.89)

j?1i?1ppj式中,p—系统包含的最小径集合数; j—最小径集合的序号;

pj—序号为j的最小径集合包含的元素数;

i—最小径集合中元素的序号。

在同一元素在不同的最小径集合中出现的场合,可以利用容斥公式来计算系统可靠度:

Rs???Ri?j?1i?1ppj1?j?l?pi?Pj?Pl??R???(?1)?Rp?1ii?1ni (4.90)

式中,p—系统包含的最小径集合数; Pj,Pl—最小径集合; j,l—最小径集合的序号;

83

pj—最小径集合Pj包含的元素数;

i—最小径集合中元素的序号;

n—所有最小径集合包含的元素数。 4.6.3.2 最小割集合 在状态矢量中,使?(X)?0的矢量是割矢量,与割矢量相对应的元素的集合是割集合(Cut set)。

当Y?X时能使?(Y)?1的割矢量是最小割矢量,与最小割矢量相对应的元素的集合是最小割集合(Minimal cut set)。

从物理意义上讲,只要其中的元素都故障就能使系统故障的元素的集合叫做割集合。例如图4.12所示的系统中,集合(x1,x2),(x3,x4,x5),(x2,x3,x4),(x1,x3,x4,x5),(x2,x3,x4,x5),(x1,x2,x3,x4,x5)是割集合。

如果割集合中所有的元素故障对系统故障是充分而且必要的,则该割集合

(x3,x4,x5),(x2,x3,x4)为最小割集合。显然,在上述的割集合中,集合(x1,x2),是最小割集合。

从系统故障的角度,最小割集合中的元素相当于并联连接;系统是由最小割集合串联构成的。当构成系统的不同最小割集合中没有相同元素时,系统可靠度可以按下式计算:

Rs??[1??(1?Ri)] (4.91)

j?1i?1kkj式中,k—系统包含的最小割集合数; j—最小割集合的序号;

kj—序号为j的最小割集合包含的元素数;

i—最小割集合中元素的序号。

在同一元素在不同的最小割集合中出现的场合,可以利用容斥公式来计算系统可靠度:

Rs?1???(1?Ri)?j?1i?1kkj1?j?l?ki?Kj?Kl??(1?R)???(?1)?(1?R)

kiii?1n (4.92) 式中,k—系统包含的最小割集合数; Kj,Kl—最小割集合;

j,l—最小割集合的序号;

kj—最小割集合Kj包含的元素数; i—最小割集合中元素的序号;

84

n—所有最小割集合包含的元素数。

例:应用最小径集合和最小割集合法计算图4.12所示系统的可靠度。设各元素故障时间分布服从指数分布,故障率皆为?。 解:该系统各元素的可靠度皆为R?e??t。 1)应用最小径集合计算系统可靠度

系统的最小径集合分别是(x1,x3),(x1,x4),(x2,x5),(x2,x3),(x2,x4)。 利用容斥公式,系统可靠度Rs为

Rs?[5R2]?[6R3?4R4]?[7R4?3R5]?[R4?4R5]?R5

?5R2?6R3?2R4 ?5e?2?t?6e?3?t?2e?4?t

2)应用最小割集合计算系统可靠度

系统的最小割集合分别是(x1,x2),(x3,x4,x5),(x2,x3,x4)。利用容斥公式,系统可靠度Rs为

Rs?1?{[1(?R)2?2(1?R)3]?[2(1?R)4?(1?R)5]?[(1?R)5]} ?1?[(1?R)2?2(1?R)3?2(1?R)4]

?5R2?6R3?2R4 ?5e?2?t?6e?3?t?2e?4?t

应用最小径集合和最小割集合计算得到的系统可靠度相同。在该例中,最小割集合数目小于最小径集合数目,应用最小割集合计算可靠度比较简单。

4.7 提高可靠性

提高系统、设备、元素的可靠性,防止系统、设备、元素发生故障,是第二类危险源控制的重要内容。

系统、设备、元件故障的发生,既有其自身的原因,也有其外部原因。前者来自设计、制造、安装等方面的问题;后者包括工作条件方面的问题和时间因素。因此,应该从这些方面入手采取措施提高系统、设备、元素的可靠性。 4.7.1 设计

良好的工程设计是防止故障的一种有效措施,在设计实践中经常采取安全系数,降低额定值,冗余设计,故障-安全设计,耐故障设计,选用高质量的材料、元件、部件等措施提高系统、设备、元件的可靠性。 (l)安全系数

在设计中采用安全系数是最早采用的防止结构(机械零部件、建筑结构、岩土工程结构等)故障的方法。采用安全系数的基本思想是,把结构、部件的强度设计得超出其可能承受的应力的若干倍,这样就可以减少因设计计算误

85

差、制造缺陷、老化及未知因素等造成的破坏或故障。

一般地,安全系数越大,结构、部件的可靠性越高,故障率越低。但是,增加系数可能增加结构、部件尺寸,增加成本。合理地确定结构、部件的安全系数是个很重要的问题,目前主要根据经验选取。对于一旦发生故障可能导致事故、造成严重后果的结构、部件应该选用较大的安全系数。例如,矿山安全规程规定,矿井专门用于升降人员的罐笼钢丝绳的安全系数不得小于9;使用一段时间后安全系数降到7以下时必须更换。又如,汽车、飞机的发动机曲轴其安全系数达40以上。

(2)降低许用值

与结构设计中采用安全系数的思想类似,在电气、电子设备或元件的设计中采用降低许用值(Derating)的方法,防止故障发生。其具体作法是,选用其功率较要求的功率大得多的设备或元件,或者采取冷却措施提高设备或元件的承载能力。例如,重要的警告信号灯采用低于灯泡额定电压的电压供电,可以减少故障、增加寿命。 (3)冗余设计

采用冗余设计构成冗余系统可以大大地提高可靠性,减少故障的发生。在各种冗余方式中,并联冗余和备用冗余最常用。 当采用并联冗余时,冗余元素与原有元素同时工作,冗余元素越多则可靠性越高。但是,增加第n个元素只能取得1/n 的效果,并联元素越多,最后并联上去的元素所起的作用越小。再考虑到体积和成本问题,实际设计中只将有限的元素并联起来构成并联冗余系统。 在采用备用冗余的场合,工作元素故障时把备用元素投入工作,增加了平均故障时间,减少系统故障率。许多重要的设施、设备都采用备用冗余方式,如备用电源、备用电机、备用轮胎等。在设计备用冗余时应该考虑把备用元素投入工作的转换机构的可靠性问题。如果转换机构发生故障,则在工作元素故障时不能及时将备用元素投入运行,最终将导致系统故障。 (4)故障-安全设计

故障-安全(Fail-safe)设计,是在系统、设备、结构的一部分发生故障或破坏的情况下,在一定时间内也能保证安全的设计。

按系统、设备、结构在其一部分发生故障后所处的状态,故障-安全设计方案可以分成三种:

1)故障-正常方案。系统、设备、结构在其一部分发生故障后、采取校正措施前仍能正常发挥功能。例如,图4.13所示的锅炉进水阀,即使阀瓣从阀杆上脱落了(故障),但由于水的压力使阀瓣升起,保证锅炉用水。

86

水使阀关闭 水使阀开

图4.13 锅炉进水阀 图4.14 分割结构

2)故障-消极方案。系统、设备、结构在其一部分发生故障后,处于最低的能量状态,直到采取校正措施之前不能工作。例如,电路中的保险丝在过载荷时熔断而断开电路;列车制动系统故障时闸瓦抱紧车轮使列车停止等。 3)故障-积极方案。故障发生后,在采取校正措施之前,系统、设备、结构处于安全的能量状态下,或者维持其基本功能,但是性能(包括可靠性)下降。例如,在结构设计中将T字钢用两根角钢代替,形成分割结构,如果其产中一根角钢损坏,另一根角钢仍能承担载荷而不致于发生事故(见图4.14)。

故障-积极方案又称故障-缓和(Fail-soft)方案,应用较广泛。 (5)耐故障设计

耐故障(Fault tolerance)设计又称容错设计,是在系统、设备、结构的一部分发生故障或破坏的情况下,仍能维持其功能的设计。可以认为耐故障设计是故障-安全设计的一种。耐故障设计在防止故障方面得到了广泛应用。 在飞机的结构设计中,为防止疲劳断裂而采用耐破坏(Damage tolerance)设计,使得即使裂纹扩展结构的剩余强度也足以保证飞机安全地返回地面。 随着计算机在系统控制中的普及,计算机软件一旦发生故障而引起事故、造成损失的情况越来越受到重视。耐故障设计是防止计算机软件故障的重要措施之一。常用的方法是由两个不同版本的软件同时运行,如果其运行结果相同则有效,否则将发出警告,见图4.15。 程序1 输入 比较器 输出 程序2 报 警

图4.15 两版本软件

87

(6) 选用高质量的材料、元件、部件

设备、结构等是由若干元件、部件组成的系统。由高可靠性的元素组成的系统,其可靠性也高。选用高质量的材料、元件、部件,可以保证系统元素有较高的可靠性。为此,一些重要的元件、部件要经过严格筛选后才能使用。 4.7.2 维修

广义的维修是指为了维持或恢复系统、设备、结构正常状态而进行的一系列活动,如保养、检查、故障识别、更换或修理等。 按维修与故障发生之间的时间关系,维修分为预防性维修和修复性维修两大类。前者在故障发生前进行;后者在故障发生后进行。 1)预防性维修

根据平均故障时间等可靠性参数确定维修周期,按预先规定的维修内容有计划地进行维修。工业企业中开展的设备大、中、小修属于预防性维修。由于随着工作时间的增加系统可靠性逐渐降低,在进入磨损故障阶段之前进行维修,可以有效地降低故障发生率。 2)修复性维修 系统、设备、结构发生故障后,查找故障部位,隔离故障(限制故障影响),更换、修理故障元素,以及校准、校验等,使之尽快恢复到正常状态。 从安全的目的出发,为了防止可能导致事故的故障发生,维修工作应该以预防性维修为主,修复性维修为辅。

在预防性维修中,按进行维修工作的时机,有定时维修、按需维修和监测维修等工作方式。 1)定时维修

以平均故障时间为维修周期进行的周期性维修。这种维修工作方式便于安排维修计划,但是针对性差、维修工作量大而不经济。

2)按需维修

根据系统、设备、结构的状况决定是否进行维修。按需维修在定时检查的基础上进行,既可以消除潜在故障,又可以减少维修工作量,充分利用元素的工作寿命,是一种较好的预防性维修方式。 3)监测维修 在广泛收集、分析元素故障资料的基础上,根据对其运行情况连续监测的结果确定维修时间和内容。它是按需维修的深化和发展,既可以提高系统、设备、结构的可用度,减少维修工作量,又能充分发挥元素潜力,是一种理想的预防性维修方式。监测维修涉及故障分析和故障诊断技术、系统状态监测技术,特别适用于随机故障和规律不清楚的故障的预防。

88

一些大规模复杂系统没有或很少有磨损故障阶段,只可能发生随机故障和初期故障。在这种场合,预防性维修对减少故障没有什么效果。近年来在监测维修的基础上,发展起一种以可靠性为中心的维修,它以维持系统、设备、结构的可靠性为着眼点,根据各元素的功能、故障、故障原因及其影响来确定具体的维修工作,它包括定期检查、定期修理、定期报废等维修措施。 4.7.3 安全监控系统

4.7.3.1 安全监控系统的构成

在生产过程中经常利用安全监控系统监测与安全有关的状态参数,发现故障、异常,及时采取措施控制这些参数不达到危险水平,消除故障、异常以防止事故发生。

安全监控系统种类繁多,图4.l6是典型的生产过程安全监控系统示意图。图中虚线围起的部分是安全监控系统,它由检知部分、判断部分和驱动部分三个部分组成。

控制系统 生产装置

驱动部分 判断部分 检知部分

图4.16 典型的安全监控系统

检知部分主要由传感元件构成,用以感知特定物理量的变化。一般地,传感元件的灵敏度较人的感官的灵敏度高得多,所以能够发现人员难以直接察觉的潜在的变化。

判断部分把检知部分感知的参数值与规定的参数值相比较,判断被监控对象的状态是否正常。

驱动部分的功能在于判断部分已经判明存在故障、异常,有可能出现危险时,实施恰当的安全措施。所谓恰当的安全措施,根据具体情况可能是停止设备、装置的运转,即紧急停车(Shutdown),或者启动安全装置,或者向人员发出警告,让人员采取措施处理或回避危险。

根据被监控对象的具体情况,安全监控系统的实际构成有如下几种: 1)检测仪表。安全监控系统只有检知部分由仪器、设备承担。检测仪表检测的参数值由人员与规定的参数值比较,判断监控对象是否处于正常状态。如果发现异常需要处理时,由人员采取措施。

2)监测报警系统。安全监控系统的检知部分和判断部分由仪器、设备承

89

担,驱动部分的功能由人员实现。系统监测到故障、异常时发出声、光报警信号,提醒人员采取措施。在这种场合,往往把作为判定正常或异常标准的规定参数值定得低些,以保证人员有充裕的时间做出恰当的决策和采取恰当的行动。

3)监控联锁系统。安全监控系统的三个部分全部由仪器、设备构成。在检知、判断部分发现故障或异常时,驱动机构完成紧急停车或启动安全装置,不必人员介入。这是一种高度自动化的系统,适用于若不立即采取措施就可能发生事故,造成严重后果的情况。

4.7.3.2 安全监控系统可靠性

安全监控系统的任务是及时发现故障或异常,及早采取措施防患于未然。然而,安全监控系统本身也可能发生故障而不可靠。

安全监控系统可能发生两种类型的故障,即漏报和误报。 1)漏报

在监控对象出现故障或异常时,安全监控系统没有做出恰当的反应(例如报警或紧急停车等)。漏报型故障使安全监控系统丧失其安全功能,不能阻止事故的发生,其结果可能带来巨大损失。因此,漏报属于“危险故障”型故障。 为了防止漏报型故障,应该选用高灵敏度的传感元件,规定较低的规定参数值,以及保证驱动机构动作可靠等。 2)误报

在监控对象没有出现故障或异常的情况下,安全监控系统误动作(例如误报警或误停车等)。误报不会导致事故发生,故属于“安全故障”型故障。但是,误报可能带来不必要的生产停顿或经济损失,最严重的是会因此而失去人们的信任。在现实生产、生活中,往往由于安全监控系统频繁地上演“狼来了”的故事,导致人们废弃安全监控系统,结果酿成了重大事故的悲剧。为了防止误报型故障,安全监控系统应该有较强的抗干扰能力。 经验表明,在安全监控系统的三个组成部分中,检知部分发生故障的频率最高。

安全监控系统的漏报和误报是性质完全相反的两种类型故障。提高检知部分的灵敏度虽然可以防止漏报型故障,却容易受外界干扰而发生误报型故障;反之,抗干扰能力强时虽然可以防止误报型故障,却容易发生漏报型故障。因此,提高安全监控系统可靠性是一件困难的工作。目前,主要通过两条途径来改善安全监控系统,特别是检知部分的可靠性:

1)选用既有较高灵敏度又有较强抗干扰能力的高性能传感元件; 2)改进系统设计,采用多传感元件系统。

90

一般来说,表决系统既可以提高防止漏报型故障性能,又可以提高防止误报型故障的性能,可以有效地提高安全监控系统的可靠性。

练习题

1,证明当元素的故障时间分布服从指数分布时,其故障次数分布服从泊松分布。

2,某设备故障率为10?4/h,求可靠度为0.90和0.95时的工作时间。

3,用9个试件对某产品进行定数截尾试验,截尾试验数r=7,观测到的故障时间分别为150,450,500,590,600,650,700h,估计平均故障时间。 4,某电子设备由故障率为3.2×10/h的元件32支和故障率为5.4×10/h的元件62支组成。计算该设备的平均故障时间,工作到1000小时和10000小时的可靠度。

5,设被监控装置出现异常的概率为p,安全监控系统发生漏报的概率为?,发生误报的概率为?,写出安全监控系统可靠度的表达式。

6,由3个相同的传感器组成安全监测系统,传感器发生误报的概率为0.10,发生漏报的概率为0.15。

1)设计安全监测系统使其发生漏报的概率最小,并计算发生误报的概率。 2)若组成3中取2系统,计算系统发生漏报和误报的概率。

7,设各元素相互统计独立,且可靠度皆为R,求图4.17所示的二极网络系统的可靠度。

图4.17 二极网络系统

8,针对一个你比较熟悉的系统提出改善可靠性的办法。

?7?8 91