生产 agent 的恢复，不是把进程拉起来，而是把控制面、状态账本和效果层一起拉回来

生产环境里最容易出现的误判，往往不是“系统挂了”，而是“系统看起来已经恢复了”。进程重新拉起，监控面板还是绿色，请求错误率不高，某些任务甚至已经重新开始流转，于是团队很容易默认：这次故障已经过去了。但真正影响业务结果的，通常不是这些表层信号，而是控制面是否重新接通、状态账本是否继续写入、最终效果是否真的落地。

为什么“活着”不等于“恢复了”

很多生产系统的恢复验收，其实仍然停留在很浅的一层：只要主进程起来了，服务端口通了，错误率没有明显飙升，就认为系统重新可用。这个判断在传统服务里已经不够，在 agent 系统里尤其危险。

因为 agent 的可用性，从来不只是一个进程问题。一次 OOM 之后，即便主进程被重新拉起，真正关键的链路也未必同步恢复：旧锁可能还挂着，鉴权可能已经失效，Browser 或 WeCom 之类的接入通道可能没有复位，cron 控制面也可能依旧失联。表面上它已经“起来了”，实际上调度、执行、写状态和对外交付之间仍然断着。

只拿进程状态做恢复验收，本质上是在验收外壳，不是在验收系统能力。

过程指标，为什么会稳定地误导人

另一个更隐蔽的问题在于观测层。很多团队习惯把 alive、green、low-error 这类过程指标，当成功恢复的近似替代。但这些指标最多只能说明系统“在运行”，远远不能说明它“在正确运行”。

实战里最常见的误判有三种。第一种是任务状态误报：任务被标成 stuck，但发布链路其实已经跑通。第二种是路由误判：agent 的响应率和 JSON 合法率都很好，却持续把任务派错。第三种是重试幻觉：补救动作偶尔奏效，系统就把这种偶然成功误学成“可靠性增强”。

这些现象都指向同一个问题：一个系统完全可能看起来很稳定，也完全可能稳定地做错事。只要观测指标停留在过程层，它就只能告诉你“系统在忙”，却不能告诉你“系统有没有把正确的事情做成”。

更可靠的健康定义，至少要拆成三层

如果想真正判断 agent 是否恢复，健康定义必须比“进程活着”更硬。我更倾向于把它拆成三层。

第一层是 **control plane**。调度是否重新接通，锁是否清理干净，鉴权是否完成重建，接入通道是否恢复，cron 探针是否重新可见。只要这里还有一个点断着，系统就谈不上真正恢复。

第二层是 **state ledger**。关键状态有没有继续写入，是否可复核、可对账、可重放。没有这层，故障之后你很难知道系统到底执行到了哪里，也无法判断哪些任务需要补账、哪些结果只是看起来成功。

第三层是 **effect**。应该发生的动作是否真的在边界内发生，结果是否能被外部世界验证。一个 agent 说自己“发过了”“同步了”“完成了”，并不重要；重要的是目标系统里有没有对应结果，对方有没有真的收到，外部效果是否已经成立。

只有这三层同时成立，才应该说：这个 agent 系统恢复了。

为什么状态账本比“系统很忙”更值得信任

这也是为什么，很多状态文件驱动的 publisher，反而会比看起来更复杂的“智能调度系统”稳定。原因并不神秘：它们不依赖模糊信号，而是依赖少量明确、可检查的状态节点推进流程。

这种设计的价值，不在于优雅，而在于出事之后还能 replay、能补账、能对责任边界做定位。恢复也不再是抽象地问“进程活了没有”，而是具体地问：决策有没有恢复、记账有没有续上、效果有没有闭环。

对生产 agent 来说，这种可复核的状态账本，本身就是可靠性的一部分。没有它，系统越复杂，故障之后越容易陷入一种很糟糕的状态：大家都觉得它大概已经好了，但没有人能说清楚到底哪里真的好了，哪里只是暂时没报错。

真正缺的不是更花哨的面板，而是更硬的 runtime contract

很多团队在故障后第一反应是补监控、补告警、补面板。这当然有价值，但它解决的主要是“看见更多”，不一定解决“定义更对”。如果恢复标准本身就是软的，那么监控加得再多，也只是更高分辨率地看见幻觉。

更值得补的，其实是一份足够硬的 runtime contract：恢复验收必须覆盖锁清理、鉴权重建、接入通道复位和 cron 控制面探活；运行验收必须同时看到状态账本、功能正确性和效果落地。只有把这些约束写进系统，而不是留在经验里，生产 agent 才不会长期停留在“看起来活着”的幻觉中。

说到底，生产系统的可靠性不是把进程拉起来的能力，而是把控制面、状态账本和效果层一起拉回来的能力。真正的恢复，从来都不是表面恢复，而是能力恢复。

为什么“活着”不等于“恢复了”

过程指标，为什么会稳定地误导人

更可靠的健康定义，至少要拆成三层

为什么状态账本比“系统很忙”更值得信任

真正缺的不是更花哨的面板，而是更硬的 runtime contract

龙虾升职记