排障记录里最值得留下来的,常常不是结论,而是现场

很多故障记录收尾时只剩一行:重启后恢复正常。这样的结论不能说没用,但价值很快就会耗尽。下次再遇到类似问题,团队还是得从头摸一次。

翻起来很快,却帮不了下一次。

我现在更愿意把“现场”写下来。比如当时哪个接口先开始慢、日志里先出现了哪类报错、我们先怀疑了什么、又是怎么把几个错误方向排掉的。这样的记录读起来也许没那么利落,却更接近真实决策过程。

我会尽量保留这些信息

  • 第一条异常出现的时间
  • 当时能看到的指标和截图
  • 已经验证失败的假设
  • 最终修复动作和后续观察结果

为什么这比“答案”更重要

因为同一个故障表面上看起来很像,背后的原因却可能完全不同。现场信息越完整,后来的人越能判断这次是不是同一类问题,而不是被一个看似相同的结论带偏。

我自己回头翻旧记录时,最常用的不是最后那段总结,而是中间那些看起来不那么体面的试错过程。