机房IT运维技术方案1.0 下载本文

IT运维系统提供用户根据系统的性能和服务级别管理对阀值进行设定: ?

错误阀值:反映如果所收集到的数据与该阀值匹配则反映用户系统已出现严重故障,用户看到此状态应立即解决此类问题。 ?

告警阀值:反映如果所收集到的数据与该阀值匹配则反映用户系统已出现故障的趋势,当用户看到此状态应进行关注并采取适当措施。 ?

正常阀值:反映如果所收集到的数据与该阀值匹配则反映用户系统此时正常,用户只需要在报告系统中关注该阀值的趋势。

在不增加操作复杂度的同时,保障阀值配置的灵活度,IT运维系统提供了多种阀值配置的方式。

如下图,批量配置单个IT组件的阀值策略。

如下图,批量配置一组IT组件的阀值策略。

如下图,配置单个配置项的阀值策略。

3.1.5.6 故障预警和告警模块

故障报警旨在将业务以及全网产生的故障作为事件报告给IT管理员,使IT的健康状态第一时间被管理员发现,而并非客户或者友邻部门。

监控数据收集的频率直接影响到数据收集的有效性,同时也很大程度关系到IT运维系统的负载。为保证对IT系统数据收集的有效性,在IT运维系统中我们

可以对每一个监测器的轮询间隔做自由定制,单位最密可达1分钟/次。建议对链路流量等对时间敏感的数据信息采用每分钟一次的收集方式,对磁盘容量等对时间不敏感的数据信息采用30分钟或者更长的时间进行收集。

3.1.5.7 故障告警

IT运维系统系统提供如下几种报警方式: ?

短信:目前支持移动、联通网关、小灵通短信网关和短信发送终端。报警通过手机短信的方式发送。实时性好,送达性强,能够满足大多数用户的需求。 ?

邮件:报警通过电子邮件的方式发送给用户。此方法的特点是成本低,操作方便,但用户接收电子邮件的时间不固定,不能保证报警消息的实时送达。 ?

声音:报警通过远程主机播放声音的方式实现。实时性好,主要适用于有人值班的网络环境下。

3.1.6

业务服务管理

3.1.6.1 业务服务管理的目标和价值

业务服务管理的目标:动态的把以业务为重点的IT应用服务与基础IT基础设施之间建立起联系,协助IT部门获取可见的业务指标。 业务服务管理的价值:

1. 辅助IT部门从以IT基础设施保障为中心,向以业务需求为中心转换。 2. 协助IT部门测量业务应用的可用性指标。 3. 协助IT部门进行前瞻性的IT基础设施容量计划。

3.1.6.2 业务服务管理概述

业务服务管理[Business Service Management]将IT基础设施视图从拓扑地图变成了依赖性模型,这种模型能识别IT组件对IT服务的联系,使得IT基础设

施事态管理(Incident)与业务成果紧密联系起来。例如、确定故障的业务应用造成的影响,并自动为造成显著业务影响的事件生成事件通知单。

3.1.6.3 业务服务管理的具体功能

IT优先级必须与其他的业务价值驱动程序结合起来。为了使IT配合业务目标组织自己的活动,组织必须将业务流程和服务联系起来

管理基础设施以元件管理可用性为中心,而管理服务则要以客户和业务需求为中心。基础设施健康与否的运营信息是决定性的基础。 业务服务管理[Business Service Management]通过将IT基础设施与业务应用之间进行了映射,从而将IT基础设施的拓扑地图转换为一个支撑关系的逻辑模型。

3.1.6.3.1 业务服务可用性管理

业务服务可用性管理:当系统资源(如服务器、网络等)发生故障时,能快速定位受影响的业务区域。

业务服务基石是将IT服务资产与更高级别业务服务结合的能力。这种结合是因果关系而不是一般的联系。

在以业务为中心形成的支撑关系模型中,可以给出IT组件与业务应用的关联。例如,IT部门了解服务器故障对相关IT服务和业务应用的影响。