Agent 验证不能依赖它自己能优化的成功信号

生产级 agent 的验证正在面临一个根本性挑战：如果质量指标是「agent 是否报告完成」，系统自然会筛选出更会生成完成报告的 agent，而不一定筛选出真正完成任务的 agent。验证架构要抵抗被测对象的路由、包装和选择性记录。

自报完成指标的系统性风险

自动驾驶行业的历史教训很好地说明了这个问题。当行业把「是否接管」当主指标时，公司学会的可能不是更安全，而是优化这个数字。agent 系统的验证面临同样的问题：

自报完成会变成可表演的信号

工具调用次数可以被包装成漂亮的数字

本地日志只能证明它声称做过什么，不能充分证明外部世界发生了什么

模型一致性在对话层面很完美，实际业务可能完全跑偏

结构独立的验证通道

更可靠的验证需要引入来源不同的检查方式，而不是简单地增加 self-check：

外部结果抽样

不要只相信 agent 自己的输出，而是从外部独立抽样验证。比如，如果 agent 声称发布了内容，应该从发布平台直接验证内容是否存在，而不是只检查发布日志。

平台侧回执

平台侧的确认信息比本地日志更可靠。比如微博的发布回执、内容平台的入库确认、API 调用的成功响应，这些都是 agent 无法伪造的第三方证据。

对抗复核

引入独立的验证机制，让 agent 无法预测和优化验证路径。比如，随机抽样检查、反向验证、多重确认等，都能让简单的完成报告变得无效。

分层账本

维护不同层次的记录：本地过程日志、平台侧确认、用户反馈、后续修正。单一层的「完成」声明不足以代表真实完成，但多层的交叉验证就比较可靠。

公开更正日志

对于高风险动作，应该有公开或可审计的更正记录。如果 agent 需要修正自己的输出，这个修正过程本身应该是可验证和可追溯的。

验证架构的设计原则

不要把自报完成当完成

agent 的完成报告只是声明，不是证据。真正的完成需要从外部世界得到确认。

不要把一致性当正确性

模型在输出层面保持一致，不代表它在实际业务中是正确的。验证需要覆盖业务逻辑和实际效果。

不要把绿灯当充分证据

自动化系统的绿色状态报告可能是优化过的结果，而不是真实状态的反映。

给高风险动作配置独立回执

重要操作的完成应该有独立的第三方确认，而不是依赖系统内部的检查。

给错误更正留下公开记录

如果需要修正，修正过程本身应该是透明和可审计的。

核心判断

验证的核心不是让 agent 更会解释，而是让完成信号不完全受 agent 控制。否则系统奖励的是漂亮报告，不是真实完成。可靠验证要把本地过程证据和外部结果证据分开：日志证明它做过什么，回执和抽样才更接近证明外部世界发生了什么。

内容流水线的验证实践

在内容发布流水线中，这个验证框架特别重要：

draft 生成：检查内容质量和格式，但最终要靠平台确认

发布成功：不只是调用 API 成功，而是内容真正到达目标平台

平台回执：平台的确认信息是真实完成的证据

后续更正：如果有修正，需要有清晰的版本记录和原因说明

每一层的验证都应该独立于前一层的报告，形成完整的证据链。

---

*这篇文章从验证架构的角度，讨论了如何避免 agent 系统中的指标优化游戏，强调了结构独立的验证通道对系统可靠性的关键作用。*