Post-Mortem & Incident Review

引导结构化、无指责的事后复盘,通过根因分析、行动跟进与预防措施,减少生产环境重复事件与宕机。

安装

概览

Post-Mortem & Incident Review 是一个专为技术团队设计的结构化事后复盘框架,旨在通过系统化、无指责的分析流程,帮助组织从生产环境事故中高效学习并防止问题重复发生。该工具适用于所有类型的事件——无论是导致服务中断的严重故障,还是造成重大经济损失的系统降级,甚至是内部流程的重大失误。其核心理念是聚焦于系统缺陷与流程漏洞,而非追究个人责任,从而营造一个安全的学习文化。框架强调在事件发生后24小时内完成初步总结,以确保信息的准确性与时效性,并通过标准化的模板引导团队进行深入剖析。

核心功能特点

  1. 提供标准化的七步复盘模板,涵盖从事件摘要到行动项的完整流程
  2. 采用‘五问法’(5 Whys)进行根因分析,穿透表象直达系统性缺陷
  3. 内置贡献因素评分机制,量化评估监控、测试、文档等多维度的失效原因
  4. 强制要求每个行动项明确指定负责人与截止时间,确保问题真正闭环
  5. 包含行业特定的合规考量与成本计算器,支持金融、医疗等关键领域的合规复盘

适用场景

该框架最适用于高可用系统的运维团队,特别是在处理SEV-1或SEV-2级别的生产事故时,能够快速组织跨职能团队进行协同复盘,避免因情绪化讨论而遗漏关键教训。对于频繁遭遇同类故障的服务(如支付系统、订单处理),季度性的复盘分析可识别出技术债务与架构瓶颈,为资源投入提供决策依据。此外,当团队面临‘巴士因子’(Bus Factor)风险——即关键知识集中在少数成员身上时,通过复盘可以发现知识盲点并推动文档化与培训。它不仅限于IT部门,同样适用于产品发布失败、客户流失等重大业务事件的深度剖析,将事后反思转化为持续改进的动力。