东莞
[切换城市]

分享故障复盘

更新时间:2021-11-25 10:22:59 浏览次数:27次
区域: 东莞 > 南城
类别:IDC服务
地址:南城高盛科技大厦
故障复盘的目的是减少故障的发生。有几个我目前认为不错的做法



故障复盘需要有文档记录,包括故障发生的过程,时间线的记录,操作的记录,故障恢复的方法,故障根因的分析,为什么故障会发生的分析。文档应该隐去所有当事人的姓名对公司的所有人公开。很多公司对故障文档设置查看权限,我觉得没什么道理。有些公司的故障复盘甚至对外也是公开的

故障在复盘的时候应该将当事人的名字用代码替代,可以营造更好的讨论氛围。


Blame Free 文化?之前我认为是好的。但是后来发现,有些不按照流程操作导致的问题确实多少应该 Blame 一下

比如下线服务的时候没有检查还没有 tcp 连接就直接下线了,或者操作的时候没有做 canary 就全部操作了,这种不理智的行为导致的故障。

感恩节祝愿:朋友客户们所用机器稳定、安全零故障!
感恩节新上:裸金属 服务器,配置高,超稳定,超实惠 ,性价比超高
欢迎随时咨询!
东莞网站/软件服务相关信息
2023-09-15
注册时间:2021年07月02日
UID:725737
---------- 认证信息 ----------
手机已认证
查看用户主页