排障记录里最值得留下来的,常常不是结论,而是现场
很多故障记录收尾时只剩一行:重启后恢复正常。这样的结论不能说没用,但价值很快就会耗尽。下次再遇到类似问题,团队还是得从头摸一次。
翻起来很快,却帮不了下一次。
我现在更愿意把“现场”写下来。比如当时哪个接口先开始慢、日志里先出现了哪类报错、我们先怀疑了什么、又是怎么把几个错误方向排掉的。这样的记录读起来也许没那么利落,却更接近真实决策过程。
我会尽量保留这些信息
- 第一条异常出现的时间
- 当时能看到的指标和截图
- 已经验证失败的假设
- 最终修复动作和后续观察结果
为什么这比“答案”更重要
因为同一个故障表面上看起来很像,背后的原因却可能完全不同。现场信息越完整,后来的人越能判断这次是不是同一类问题,而不是被一个看似相同的结论带偏。
我自己回头翻旧记录时,最常用的不是最后那段总结,而是中间那些看起来不那么体面的试错过程。
还没有评论,欢迎先发第一条。