支付服务因内存耗尽(OOM)崩溃,导致约 5% 用户支付失败,持续 23 分钟,预估损失约 ¥300,000。
MTTD 为 0 是因为 OOM Kill 事件直接触发了进程退出告警,检测链路完整。MTTA 5 分钟在 on-call SLA(≤10 min)范围内。MTTR 23 分钟中,缓解动作(重启)占 15 分钟,主要耗时在诊断阶段——缺少标准化的 OOM 排查 runbook。
| 优先级 | 行动 | Owner | 截止 | 状态 |
|---|---|---|---|---|
| P0 | 接入 HPA — 为 payment-service 配置 Horizontal Pod Autoscaler,基于 CPU + Memory 双指标,min=4 / max=12 副本 | SRE 团队 | 2026-05-18 | 进行中 |
| P0 | 调整内存告警阈值 — 将 payment-service 内存使用率告警从 95% 下调至 80%(Warning)和 90%(Critical),并增加 OOM Kill 预测告警 | SRE 团队 | 2026-05-16 | 进行中 |
| P1 | 编写 OOM 排查 Runbook — 标准化 OOM 故障响应流程(内存 dump 采集 / GC 日志分析 / 快速回滚 / 重启决策树) | 支付团队 | 2026-05-25 | 待开始 |
| P1 | 建立容量规划定期评审 — 每季度一次容量评审会议,覆盖 QPS 增长、内存趋势、连接池水位 | 基础架构 | 2026-06-01 | 待开始 |
| P2 | 跨团队流量变更通知机制 — 营销 / 运营团队发起的流量活动需提前 48h 通知基础设施团队做容量预检 | PMO | 2026-06-15 | 待开始 |
| P2 | 混沌工程演练 — 将 OOM Kill 场景加入季度故障演练计划,验证自动扩容 + on-call 响应链路 | SRE 团队 | 2026-07-01 | 待开始 |