刚收到一则悲剧,某用户机房过年期间消防系统误报喷放,且没有和大楼消防中心对接,结果真发生了险情是被业务部门过来机房重启服务器时及时处理……机房悲喜剧。消防系统为什么误报也不得知,没接到监控平台,历史监控记录也就没有了。要是私企早下岗玩完了。多亏是衙门。
其实,从这则事故中我们很容易看出,该单位IT机房运维人员平时麻痹大意,从来不注重机房重要子系统的日常巡检、故障处理和确认。连最简单最基本的机房动力环境监控也不存在,所有系统syslog通通没有保留。出了事故连怎么出的都无法解释,搞不清楚。
几点给大家的建议:
1、建立系统的巡检机制,及时检查系统健康状态,其中UPS主机、电池组、气体消防、烟温感为主要对象。主机层面的PC SERVER使用状况也应该选择合适的产品予以日常监控。
2、使用专业IT工作流程管理系统对IT机房及应用系统做日常管理,避免发生不可饶恕的错误,单单只是简单的动环监控是不够的,如果条件允许应当考虑对IT资产、配置变更、事故告警进行及时更新,动辄上万的IT设备如果无管理状态总有一天要出事情。
#大话运维#关键业务机房系统维护缺失导致重大事故,怪谁?
2014-02-06 00:36:29 来源: 评论:0
这是我收到的一则运维事故,来源我们不用关心是谁发生的,只要关心为什么和怎么做即可。
原创文章请转载注明出处 www.jifang369.com 欢迎您
相关热词搜索:站长联系方式18689770627
本作品采用知识共享署名-非商业性使用-相同方式共享 3.0 中国大陆许可协议进行许可。
  全站最新