全文介绍:
本文从浅层开始,跟大家聊聊私有云数据中心或者公有云数据中心在设计与运维过程中的风险管理与控制,举几个简单的例子让读者体会一下风险管理的感觉。
版权声明:
本文作者“欧阳有龙”,原创文章,先声明禁止任何媒体或平台在未经授权的前提下发表至任何其他互联网媒体,仅授权“可动软件”公众号与海南可动公司官网、机房设计运维网等自有媒体刊载,其他平台编辑如要转载,请联系私人微信idcer369获得授权并保留原作出处。
一、为什么数据中心从设计到建造、交付运维都需要依靠风险控制体系?
首先我们要简单说说风险控制的体系是什么?风险控制的体系核心包括风险的识别、管理、跟踪、处置、检验、监控等等。一个完整的数据中心风险控制过程无外乎这几种。
就风险本身来说,所谓的风险就是有可能发生,有一定机率发生的概率事件,每一个风险由潜在到被识别、被跟踪乃至处置都是需要有一定技术与管理经验的人去控制的,著名的美国 NASA 研究学者墨菲提出的“墨菲定律”就是经典的风险管理定律。
所以,数据中心发生的一切停止服务风险,都是可通过预防与控制处置来将其带来的结果控制在较小的影响范围的。
比如:从设计的风险管理来讲,就举两个简单的例证:
一座政务云数据中心,或公共安全、司法系统私有云数据中心,由提出建造需求开始,就应该考虑到自身的实际运维能力与影响面,是否能够接受全年计划外停止服务超过1天、甚至两天?
如果无法接受,那么就从设计阶段就要控制这座数据中心的建设风险:
设计风险控制:需要专业的设计与咨询团队,根据自身的业务特性与资金规划情况,结合人员管理经验与素质、连续服务等要求,从顶层设计上设计出合理的建造方案,方案中要考虑到数据中心的选址、电力供应、网络供应、周围环境、电力供应等级与方式、网络路由冗余与备份,等等诸多技术面的内容。而不是随便由一个本身没有多少设计与运维能力的机电工程公司或者没有顶层设计视野的土建设计院去设计。
一个好的咨询设计团队能够引导用户真正的需求,而不是闭门造车。一个经验丰富的设计与咨询团队,能够合理的控制数据中心设计过程中的架构合理性,有充分的扩展空间与容灾能力(容错能力非一般等级可考虑,需要巨大的资金和成本与运维水平)。基于专业设计咨询与优化后的数据中心建设要求,可以帮助客户理性的选择建造方案,做到真正意义上的建造风险控制。
例证1、
某省级行政政务云中心,要规划一座承载省级核心数据资源的云计算数据中心,作为将来政务数据大数据基础采集与应用基础,需要一座较高等级的数据中心作为承载,要求全年计划外停机时间不超过6小时。
这时候就有几种可能:
将项目需求给几家智能化建设单位,声明需要建立一个国家A级标准的机房,要大家出设计方案和预算。这种情况下大多都是智能化设计单位找几个设计师,伏案工作一周到两周,在与用户沟通不到5次的情况下作出一整个设计图纸与预算,潜在的风险自然不必说了。
第二种可能,请设计院与造价咨询机构,委托设计,同样的,这样的委托设计最终输出的经过可能是最符合国家标准规范的设计框架,但并不代表能够真正的符合用户将来五年甚至七年内的使用需求。同样做不出真正符合用户利益的设计。
再讲一种方式,就是由真正有运维和设计经验的咨询设计团队,进驻用户现场,进行详细而充实的勘查、了解,结合用户自身人员配置状况,作出一个项目设计咨询框架,框架中有且不止于以下内容(限于篇幅无法将很完整的调研写出):
场地:
处于什么位置:方向,高层、当地地震历史与地震带、该片区域的内涝、沉降数据,交通与物流情况,周围危险源等等。
资源:
周围可用资源:将来接入数据中心的电力资源是否可提供双变电站双回路,是否具备发电机与配电房安装场所,是否有高压专变入户资源,是否有两个运营商提供两种路由的进线入户,周围5公里内或10公里内是否有柴油供应点。
布局:
楼层板载重能力,结构抗震等级,是否符合容灾需求,机房逃生途径是否畅通,物流与运维货物运输途径是否安全,在符合运维标准的前提下最大能够利用多少空间来安装机柜,存储和网络、主机是否需要划定特别区域,是否需要单独的运维监控中心,消防控制中心,出入门岗,缓冲区域,电信接入是否路由合理。
结构:
弱电综合布线根据应用主机的分布采用什么样的预端接,光纤与铜缆类型,结构化布线的拓扑方案,汇聚点的冗余备份线路要求,强电、铜缆、光纤如何在空间内合理路由,方便后期扩展与日常使用,采用什么样的交换机接入方案。
运维:
整个数据中心需要采集哪些关键数据,关键指标,承载的应用是分布式的虚拟化结构还是采用超融合可弹性扩展,与运维团队的外包服务选择有关,制定合理的运维外包资格要求与外包服务内容,涉及到抢点强电系统、弱电系统、网络链路、应用程序、数据库、存储资源容灾、容错等级等等。
好,本篇限于篇幅和时间就不继续展开,后续再接着聊,作者要写工作报告啦。