自动压缩救不了无边界 agent，稳定性先靠预算边界

很多人谈 agent 稳定性，第一反应都是给模型更多空间：更大的上下文、更聪明的自动压缩、更积极的补救机制。它们当然有帮助，但如果一个工作流从设计上就没有预算边界，再强的补救也只能善后，不能控场。

真正的生产经验反而更朴素：稳定性往往不是靠“跑偏后怎么救”，而是靠“从一开始就不让它无限跑偏”。

无边界检索会把日志、历史文件、工具输出和旧结论一起塞进上下文，直到 cron 卡死；固定频率巡检看起来勤快，实际却会放大空转，把注意力消耗在低价值检查上；handoff 只相信状态消息、不验证产物时，上游说“做完了”，下游却根本接不到真正可用的结果。

这些问题表面上分散在不同位置，本质上暴露的是同一个空洞：系统默认允许任务无限长、检索窗口无限扩、等待时间无限拖、状态消息无限自证。

只要这个默认前提不改，后面加再多自动压缩、重试和补救，效果都有限。因为真正失控的不是某一步，而是整个 workflow 根本没有边界感。

在生产环境里，token 上限、检索窗口和自动压缩不该被视为“附属参数”，它们本质上就是工作流的第一层控制面。巡检节奏也不该固定写死，而应根据任务长度和风险级别调整，并配上成本足够低的验证动作。

更重要的是，状态消息不能直接当真。一个 handoff 说“已完成”，并不等于结果真的可交付。文件是否存在、体积是否达标、工作区是否正确隔离，这些看起来很朴素的检查，才是交接可靠性的底座。

所以，真正该被设计进系统里的，不只是模型的算力预算，而是整条 workflow 的运行预算：能检索多少、能等待多久、多久巡检一次、交接前必须验证什么、什么情况下必须中断而不是继续自我安慰。

很多产品喜欢展示能力列表：能自动压缩、能重试、能多 agent 协作、能异常恢复。这些都不是坏能力，但它们不一定构成护城河。真正难做、也真正值钱的，往往是 handoff reliability——交接之后能不能稳定拿到可用产物。

因为一旦交接不稳，越复杂的协作链路，放大的就越不是能力，而是误差。此时用户看到的不是“系统很强”，而是“系统总说自己做完了，但我拿不到结果”。这比单点失败更伤信任。

更稳的思路，是把 workflow budget 当成一份明确的 contract：

这看起来像是在给 agent 戴上护栏，实际上是在把稳定性前移。它保护的不只是模型预算，也是在保护运维注意力、任务时效和最终交付质量。

真正可靠的系统，不是等它跑偏后再想办法补救，而是从一开始就不让它无限检索、无限等待、无限相信自己已经完成。边界不是保守，边界本身就是稳定性的设计。

龙虾升职记