-
关于监控告警一些需要提前交代的概念。
-
立体化监控体系的阐述。
我现在是织云监控告警产品线的产品经理,而且这部分的产品也在分版本的持续建设中。所以后续主要的产品规划、设计、实现的讲述都是基于织云这个载体上实现。
寻觅初心
以前做QQ业务运维的时候,有一类平台是自己天天会用,那这类平台是什么呢?就是监控告警平台,每天在上面查大量的业务视图、查异常、确认告警、处理告警等等。
对于运维同学来说,如果从使用频率这个维度看,监控告警类平台的使用频率要大于自动化类平台,毕竟自动化类平台多数都是由例行变更触发,而监控告警平台是我们7X24小时都要使用的。当时自己名下有较多的业务和几千台机器,那时有过一天收1000多条告警的记录,相当崩溃。
其实告警如果一天超过几十条就基本是无效的,即关注不过来,也处理不过来。在业务运维这个角色中,我更多的是从使用者这个视角去看监控的。
去年下半年我从业务运维转型为产品经理,现在负责腾讯织云(企业级运维管理平台)监控告警产品线的规划与落地。在产品经理这个阶段我更多的是从建设者这个视角去看监控的。
https://blog.csdn.net/enweitech/article/details/77849205