【重磅好文】前华为资深CMDB专家:我与CMDB不得不说的故事 下载本文

全球化的机遇-全球数据整合

先说一个小背景:华为IT运维管理主要分成两个部分,系统运行管理部和区域IT管理部。系统运行管理部负责数据中心运维,特点是:人员专业性较强,并建立了完善的运维流程体系和管理工具。区域IT管理部负责海外机房的运维,特点是:机房量非常大,流程不健全,也缺乏管理工具。

2008年的春天,海外发生了一起安全事件,事后追查,发现这些服务器没有纳入系统运行管理部的安全管控范围。于是,华为IT开始推进全球统一运维,所有国家、所有机房,均纳入系统运行管理部的流程管理体系。

全球化带来的直接后果,是各个运维管理部门的数据维护成本陡然上升。以前只需要搞清楚数据中心内部这点家底就行了,现在要搞清楚全球几十个国家、一百多个机房中的软硬件配置信息,这几乎是不可能完成的任务!

于是,大家把目光转向了配置团队:你们不是专业做数据的嘛,这事你们就担了吧。没问题!(我耳边响起刘德华的歌“盼了好久终于盼到今天”)

于是我们手持安全内控的尚方宝剑,花了半年时间,顺利的完成了全球IT资产的梳理并整合进CMDB。

这对CMDB有里程碑的意义。虽然CMDB在“准确性”和“灵活性”方面无法超越自建库,但这一次,CMDB终于在数据的“完整性”方面完胜群雄。

有了全球家底数据,各管理业务开始体现出对CMDB的兴趣,开始定期和CMDB进行数据核对,并发现了大量遗漏管理的设备。从此,CMDB逐步从运维的边缘逐步走向核心。

3价值发挥期 1

冒险的尝试-流程自动化

起初,CMDB与外围管理业务进行半自动的数据核对,输出遗漏管理的对象清单后,提给各外围业务处理。但老这么干太费劲。于是,我们开展了流程自动化的工作。

首先尝试的是账号管理,因为全球有海量的账号需要回收,人工成本极高。我们先进行了自动开单,当账号管理系统从

CMDB中识别到未回收口令的CI时,可自动触发批量口令回收工单。试点效果很好,大大提升了账号回收效率。

大家的信心增强了,于是我们进行了更大胆的尝试:账号管理系统基于CI属性自动识别口令回收脚本,并触发脚本执行。我们的实践再次取得成功,账号管理从此轻松实现了百万级口令自动回收,领导再也不用担心口令没回收啦!

账号管理实验成功后,我们乘热打铁,迅速与监控对接。监控业务同样面临全球广覆盖的要求,有强烈的原动力。最终实现的效果是,当一个CI在CMDB中被置为生产状态后,监控系统会立即识别,并根据CI的属性和关联关系自动确定监控指标和告警级别,在完成人工确认后,可触发自动化监控部署。

通过与这两个业务的集成,使大家看到了CMDB在运维自动化方面的潜力。原来CMDB除了给人查阅,还可以这么玩!从此,配置数据的消费呈现爆发式增长。不到两年,已有十几个业务流程基于CMDB运作。

各业务流程通过数据总线识别CI状态的变化,一旦CI进入对应业务的管理范围,就自动触发流程执行。回顾整个推广

过程,我发现原动力最为关键。对于一些有广覆盖需求的业务(尤其与安全相关),其原动力最大,会主动找CMDB。比如,补丁管理、入侵检测、账号管理、合规检查等等。

驱动单个流程自动化只是CMDB的起点,当运维的标准化程度足够高时,CMDB还能够驱动多流程协同。比如,实现服务请求的端到端交付。示意如下:(CMDB驱动多流程协同)依据经验,通过CMDB驱动各流程协同,可以将服务器的交付时间从原来的1个月缩短到3天。更重要的是,外部客户再也不用介入在资源交付过程中的各种跨部门、跨流程的沟通工作。

经过多年的努力,CMDB已经逐步变成了各个业务流程的起点,为各个流程提供高质量的配置数据。有一次,我跟刘青(我的领导)开玩笑说,你看我们多重要。一旦CMDB挂掉,华为整个IT运维流程就摊了。刘青批评我说,别乌鸦嘴! 2

最大的难题-数据准确性

数据的准确性是CMDB的生命。因为账号管理和CMDB都