ITIL为什么推行了很多年,IT运维还是天天在“救火”?
很多企业学会了ITIL流程却没有摆脱救火模式提到ITIL很多IT管理人员并不陌生。事件管理、问题管理、变更管理、服务请求管理这些概念已经成为很多企业IT管理体系中的基础组成部分。这些年不少企业投入了大量资源推动ITIL落地。建立流程规范工单制定SLA上线ITSM平台。从表面上看管理体系已经越来越完整。但现实里一个问题却始终没有消失IT团队依然很忙。服务器异常要处理业务系统故障要排查用户投诉要响应各种突发问题层出不穷。很多团队甚至会产生一种疑问为什么ITIL都做了这么多年IT运维还是天天在救火真正的问题不是没有流程而是所有精力都在处理眼前的问题如果观察很多企业的日常运维状态会发现一个非常明显的特点。团队每天都在工作。工单在处理故障在恢复需求在响应。但很少有人有时间停下来思考这些问题为什么会不断重复出现因为对于大多数团队来说眼前的问题永远更紧急。系统挂了要先恢复业务催办要先处理用户投诉要先解决。于是所有时间都被“当前事件”占满。从短期看这没有问题。但长期来看就会形成一种循环问题出现快速修复恢复服务等待下一次出现。团队一直在解决问题却没有时间减少问题。很多企业把ITIL理解成“流程管理”这是一个非常常见的现象。不少企业在推进ITIL时最关注的是流程有没有建立审批有没有规范工单有没有闭环。这些当然重要。但如果把ITIL理解成单纯的流程管理就很容易陷入一种误区认为流程上线就等于管理成熟。事实上ITIL真正想解决的从来不只是流程问题。它更关注的是如何持续提升服务质量如何降低服务风险如何减少重复故障。换句话说流程只是工具不是目标。很多事件管理做得很好问题管理却长期缺位如果说哪个ITIL实践最容易被忽视那么问题管理一定排得上前列。因为事件管理能立刻看到效果。系统恢复了工单关闭了业务继续运行。这些成果非常直观。而问题管理则完全不同。它关注的是故障为什么发生根因在哪里未来如何避免。这些工作往往没有立即回报。于是很多团队会出现一种情况事件工单越来越多问题分析越来越少。结果就是同样的问题不断重演。IT运维最怕的不是故障而是“熟悉的故障”很多团队都有这样的经历。某个系统异常再次发生时大家第一反应不是惊讶而是“又来了。”因为这个问题已经出现过很多次。大家甚至知道谁来处理怎么恢复多久能修好。听起来像经验丰富。但从另一个角度看这恰恰说明问题从未真正解决。一个成熟的IT运维团队不应该因为擅长处理故障而自豪。真正值得关注的是同样的故障是否越来越少。服务管理真正的价值是让问题越来越少很多企业在评价IT团队时习惯关注处理了多少工单解决了多少故障响应速度有多快。这些指标当然有价值。但它们反映的是团队有多忙。而不是系统是否越来越稳定。真正成熟的服务管理应该让团队逐渐从重复劳动中释放出来。因为服务管理最终追求的不是更高效地救火。而是让火越来越少。为什么很多团队越忙改进能力反而越弱这里存在一个典型的恶性循环。故障多所以团队忙团队忙所以没时间优化没时间优化所以故障继续增加。时间久了之后团队会越来越依赖经验丰富的人。出现问题找专家重大故障靠骨干关键系统靠老员工。这种模式短期能维持运行。但长期来看会让整个组织越来越脆弱。ITIL真正成熟的标志不是流程数量而是稳定性提升很多企业喜欢展示建立了多少流程上线了多少模块制定了多少规范。但这些其实都只是过程。真正能够体现ITIL价值的是另外一些结果重复故障是否下降重大事件是否减少变更成功率是否提高用户满意度是否提升。如果这些指标长期没有变化那么无论流程多完整都很难说真正实现了服务管理价值。当IT运维开始从“恢复服务”转向“预防问题”变化才会发生成熟团队通常会经历一个重要转变。以前关注出了问题怎么办。后来开始关注问题为什么会发生。再往后关注能不能提前避免。这三个阶段看起来只是思维变化但对团队状态影响非常大。因为一旦开始关注预防很多资源投入方向都会改变。团队会更重视根因分析变更评估知识沉淀自动化预警。而这些能力恰恰是减少救火最有效的方法。结语真正成功的ITIL实践不是让团队更会救火而是让团队越来越少救火很多企业推进ITIL多年之后会发现一个现实流程可以复制工具可以采购制度可以建立。但真正困难的是改变团队的工作方式。因为ITIL从来不是让大家成为更高效的消防员。而是让组织逐渐摆脱对消防员的依赖。在实际落地过程中一些企业会借助成熟的ITSM平台来推动这种转变。像ManageEngine ServiceDesk PlusSDP这样的方案不仅支持事件管理和服务请求管理也能够帮助团队建立问题管理、变更管理和知识管理体系。当IT运维不再把全部精力放在处理故障上而是开始持续减少故障时ITIL的价值才真正开始体现。