全文关键字:ITIL标准、ITSM方法论、安全及风险管理
首先我们来看看以下这些数据中心运维问题符合的有多少?
基础设施:包含电力设施、制冷设施、消防设施、机柜等
网络庞大:包含路由器、交换机、各种应用服务器等
分支众多:包含主机房、分支机构、灾备中心、异备中心
系统繁多:随着信息化建设,软件业务系统众多,医疗有HIS、HRP、财务、门户、PACS,证券有交易、结算、财务,政府部门有门户、众多业务系统
损失严重:任何环节发生故障都有可能给业务造成巨大损失
好了,如果以上环节符合你的环境特征,那么你是这篇文章的受众群,欢迎继续往下拉,如果不是,那么你还暂时不需要了解,可以不用浪费黄金般的时间。
那么,在这个基础上,请检视一下自身环境,以下“事件”在自己身上有没有在发生?
1、不能及时发现问题,比如说某个设备掉电了,某个应用前台中断了。
2、无法及时定位故障,比如一个网站无法访问到底是电力出了问题还是服务器出了问题又或者是网络链路除了问题?一时无法定位。
3、维护文档、配置信息分散,比如服务器的配置已经做过重要改动,对某个DB进行了优化,没有做配置记录,所做的事情都在个人手里,也没有形成体系的维护文档。
4、供应商管理不全面,比如某个系统的设备及系统供应商在发生问题后不能及时响应解决,而是互相推脱,做应用的说应用正常,管DB的说DB没异常,做网络的说网络也通畅,那,问题处在哪儿?
好了,耐心看到这里的朋友相信也会据此检视自身管理过程中是否存在诸如这类问题,如果有,又该如何做?接下说。
在面临这些问题的时候,作为主要管理部门,其实该思考下面几点,设立一个目标性框架。
1、如何降低运维的成本和风险?在国内体制下IT部门不可能获得比业务部门更大的投入,那么能做的事情其实就是如何在现状下改善去降低成本和风险以期达到建设的目的。
2、怎么样去提高支撑平台的服务?IT部门不管是政府还是企业还是医疗,总归是为业务服务的,那么既然如此就理所当然应该考虑如何去和业务部门更紧密的结合,通过工作的流程简化、精细化去以期达到业务部门业务发展的同时作为支撑的部门跟上节奏而不是成为发展的瓶颈。设计好良好的服务体系和沟通体系,去展现作为IT的核心价值。
3、如何统一管理?基础设施风火水电这么多,主机和网络设备这么多,业务支撑系统这么多,应用这么多。又应该怎样做到有效而又具有区别性的管理?不同层面的工作又怎样分配各自的角色?之间怎样联合而不博弈。
4、如何去设计IT的整个从统一监控到精细化运维的机制?作为规划的最终目的就是在多逻辑层面的监控基础上,以监控的结果为依据建立运维工作流程,达到快速响应服务,发现问题并解决问题。
------我是分割线------
好了,说到这里我觉得如果还在看的朋友是想继续讨论此话题的了,那么,我为大家隆重介绍一套标准以及标准落地后的方法论。
ITIL (Information Technology Infrastructure Library):即信息技术基础构架库,这是一套英国商务部为了解决“IT服务质量不佳”的问题总结出来的评估和方法论,发展至今有V1、V2、V3版本。
ITSM (IT Service Management,IT服务管理 ):因为ITIL标准并没有定义任何具体的架构目标,类似于ISO9001标准一样并不特指某个个例,并不会解决特定问题,所以,才有了基于ITIL标准框架下更直接的面向IT的方法论,ITSM定义了多个管理目标和办法,任何机构都可以根据自身现状和方向去引用、套用以建设自身的IT服务管理架构。
好了,以上两个名词介绍完了,如果大家有更多希望了解的可以内事问百度、外事问谷歌、自己事问天涯了。下面来说说如何利用这套方法论。
第一个问题:你对现下IT的结构了解吗?
具体到基础设施的状况,主机数量、网络结构拓扑、有多少业务工具、有多少应用系统。有多少个运维人员,这些运维人员能各自解决哪些问题,具备处理什么故障的能力。
第二个问题:你知道现在的各个层面监控状况吗?
具体到机房的动力状况、空调状况、温湿度状况、UPS状况、消防状况,到主机的硬件资源占用率、各个系统的网络链路访问健康度、速度、业务工具如数据库的连接数、表操作、表空间告警、异常登陆,备份软件的执行、灾备的状况,还有最终应用平台的在线情况、访问情况、异常情况等健康度监控,关键进程如中间件、客户端的运行情况等。
---之所以想问大家这些问题,原因在于,我们的最终目标:业务的持续健康运行、风险处于可控制范围受到上面这些问题的影响。达到目标的前提是必须对一切了如指掌。打个不恰当的比方,如果在监控的盲点,有一个机柜的电源插排主机电源线被拔了,导致主机故障,这个直接导致了应用的中断,你能立即响应吗?换句话如果是网线被拔掉?硬盘坏了?数据库被登录爆库?这一切都是非常容易发生的,如果没有监控为基础,又怎样在后面的管理上去加以设计,去降低运维风险而提高应用的健康度?
好了,今天写的有点多,太晚了,现在已经凌晨1:44,明天还要工作,抽时间再发接下来的文章,第二篇我们将介绍ITSM体系里定义的管理目标如:事件管理、问题管理、能力管理、信息安全管理、连续性管理、服务级别管理(SLA)、资产及财务管理、服务报表管理、变更管理、发布管理、配置管理、运营指标量化,可能也是一篇讲不完,会有接下的第三篇补充。