精品文档
我司注重运行维护的管理,偏向于事前管理而非事后管理,因此特别强化了基于事件的故障管理与故障预警管理。
设备失效固然是严重故障,但 我司产品的设计并非让用户被动地等待“出事”,绝大多数告警项的设计是为了建立“预警”机制。例如,对一条千兆网络连接300M的流量不算大事件,但是如果考虑到日常的流量一般不会超过100M,这就是“事件”,通过设置流量告警上限同时结合延时设置 (过滤偶尔的峰值流量),可以及时地发现问题。 2.5.2.2. 全面的告警监视
我司支持从网络的第2层到第7层实施全面的故障告警管理,包括网络类告警、服务类告警、环境类告警和其他类告警。 2.5.2.3. 独立的事件告警输出管理
? 短消息管理中心:支持多通道管理,默认设置通道失效可自动寻找其他备选可用通道、告
警队列管理 ; 短消息接口管理:
? 合成语音告警管理:支持在告警发生时刻,根据告警内容的不同,合成语音送到IE 前端; ? E_ma 告警管理:支持多服务器管理,A通道失效可自动寻找其他可用通道,不同告警可
以选择不同的Ma 服务器; Ma 服务器管理: ? ? ?
编号;
E-Ma 服务器属性;
立即/定时测试(对象、时间、内容)。
? 消息框告警管理; ? 设备端口开关操作;
2.5.2.4. 事件告警触发管理----告警规则管理
系统提供如下告警信息: ? 编号; ? 告警名称; ? 告警描述;
? 状态(执行/未执行/屏蔽态) ? 紧急度、影响度;
? 本告警是否允许被高级告警遮蔽。
我司 告警屏蔽为高级智能判断提供了基础,支持如下情况:
例如:某设备SNMP 访问失效自动屏蔽该设备内部各SNMP 检测点轮询。我司 告警屏蔽提供高级层层深入的故障发现模式。出于减少被检测对象额外管理流量压力,避免影响设备与服务的正常性能,一般情况下仅对几个重要指标参数进行例行检测,这几个指标参数虽可以反映问题征兆,但
.
精品文档
因信息太少仍不足以定位问题根源,借助我司 告警屏蔽功能我们可以预置多个检测点,平时不工作(屏蔽),一旦重要指标参数异常则自动撤消屏蔽,开始进行深入分析,以提高故障告警的反应速度与准确性。
触发告警条件:
? 单点告警:支持批量设置多个监控点,任意一个超阀值触发告警。类型、阀值相同(一组)
视为多个单一告警点,逐一处理告警;
? 复合告警:设置多个监控点,所有监控点超阀值才触发告警。类型、阀值可以不同,平时
只看一个---最易复用的数据项,触发时再看其他复用项。
复合告警在管理实践中意义很大,带有简单的人工智能特征。在管理实践中我们知道故障的表象往往复杂多样,同一故障会在不同角度有不同表现,故不能简单地根据某一检测点的数据异常轻易地下判断,这对于一些重要事件的判断尤为重要,我们必须考察若干点之后再判断才较为准确。
例如,用户需要建立某主干线路故障诊断,但不能仅凭该线路所在端口是否Down来简单判别,这样误报率很高,原因在于某些类型线路(如“帧中继” )即便断路,设备端口也不会Down,另外设备本身如突然Snmp 协议访问失效又如何处理?合理的复合判断可以是“线路端口Down + 经该线路可访问的对端设备访问失效 + ……” 。
? ?
特定Trap 信息 特定Syslog信息
所有条件轮巡间隔相同,设备类最小间隔为10秒,服务类最小间隔为120秒,每到轮巡时刻,对所有已选的触发条件逐一检查,任何一个符合就计为发现一次故障。
相同告警点连续 N 次触发才有效,轮巡间隔 M 秒一次,此处的次数和频率用户可自行设置。 2.5.2.5. 告警撤消管理
? 单点告警:逐一处理告警点恢复;
? 复合告警:所有超阀值恢复或任意一个恢复撤消告警; ? 特定trap(定时主动去Trap 库中查检); ? 特定Syslog(定时主动去Syslog 库中查检)。
相同告警点连续 P次触发撤消才有效,轮巡间隔 Q 秒一次。 2.5.2.6. 触发执行
我司 在告警触发时刻可以引发一连串动作:
? 关联触发
? 开始循环记录告警点(10分钟);
? 以传输参数方式启动数据流分析记录(定时长); ? 启动相关PC agent 进行进程记录; ? 第三方程序。
? 关联抑制(两者可以同时选)
.
精品文档
? 手工屏蔽/取消屏蔽指定“紧急度/影响度”的告警(多个); ? 手工屏蔽/取消屏蔽指定“编号”的告警(多个);
? 允许自动屏蔽(可查看内容,可关闭此功能,但不能更改,缺省为 “开”,如果与
手工指定矛盾,则以手工指定为准); ? 告警输出(每一项可选目的地)
? 时段选择(在不同时段执行不同告警输出)
以下输出的每一种信息输出处理方式都可填写,每种方式支持几种不同参数填写,每次完整的填写都有编号,供上述告警输出选择灵活选取、组合。
? WAV 输出(缺省所有IE前台,可以指定登陆用户名/组)(告警内容); ? 短消息(无缺省,可以指定网关编号、对方手机、登陆用户名/组(告警内容); ? 消息框(缺省所有前台,可以指定登陆用户名、组)(告警内容);
? E-ma 告警(无缺省,可以指定Ma 服务器编号以及对方地址 )(告警内容)。
2.5.2.7. 基线告警
对于一个成熟的业务网络来说,网络上在不同的时间段运行业务,网络的流量和负载也会不同。例如,网络主核心交换机在早上9点到10点这段时间经常是以60%的CPU负载工作,而在下班后的空闲时间,该交换机的CPU负载不会超过20%。传统的固定阀值的告警通常是设定CPU 负载在80%的时候告警,但是这样的设置不利于对闲时的设备进行预警。我们经过长期的对用户的网络环境和应用的分析发现,用户的设备负载不是一成不变的,通常是呈一条曲线进行波动。我司的基线告警就是根据这一现象,从长时间的历史记录中自动生成设备运行基线表,这张基线表是该设备运行的趋势和告警偏离基准线。这张基线表充分收集该台设备的工作状态信息,可以生成每日、每周、每月的运行基线。基线告警则是根据这条动态的基线数据点,按照相对应的时间形成一个动态的告警阀值。通常基线告警的阀值都采用偏离度阀值,即在这个基准线的上下N%偏离度内都是正常,超出这个偏离度进行告警,此处的偏离度用户可自行设置。 2.5.3. 基线数据管理的功能
? 基线数据管理可以根据用户网络中设备的运行状态设置相应的基线数据,并对相应的基
线数据设置相应的告警信息,通过基线数据管理能够为用户提供更加完善的告警处理功能。
.
精品文档
.