Anthropic 内部多智能体工作流细节流出:迁移测试通过率极高

AI资讯
多智能体并行执行流程的示意截图
一条主任务被切成几十个分支,agent 分头干活

X 平台上流传出 Anthropic 内部多智能体工作流的几张截图。爆料账号在配文里写:这个系统能自动把一条迁移任务拆给数十个子 agent 并行处理,团队内部反馈迁移测试通过率”高得吓人”。

11 天迁移背后的脚本自动化

截图里能看到的工作流大致是这样:开发者输入一个高层目标,例如”把 X 服务从 Python 2 迁到 Python 3.12″,系统会自动生成一个分支脚本,把任务切成数十甚至上百个子任务,每个子任务由一个独立 agent 处理。每个 agent 完成自己那部分后,会把改动提交到一个临时分支,由另一组 agent 跑测试和静态检查。爆料中提到的关键数字是:内部一次系统级迁移在 11 天内完成,迁移涉及的代码行数在 80 万行量级,最终回归测试通过率超过 96%。

对抗性自检前置,是这条工作流的真正护城河

爆料账号在线程里特别强调一个细节:每次合并前,系统会让一组 agent 扮演”攻击方”,专门构造极端输入和边界 case 去打主分支的代码,这一步通过率不到 100% 就不会合并。Anthropic 内部把这套机制叫做”发布前红队”。多位看到爆料的工程师在转推里给出评价:这等于把传统 SRE 的发布演练自动化,对手公司想抄作业,模型能力是一方面,更难复制的是这套流程化的工具调用纪律。

多 agent 看着炫,真正难的是任务怎么切

能跑数十个 agent 协同的厂商不止 Anthropic 一家,但大多数演示停在 demo 阶段。真正决定能不能跑出 11 天迁移这种成绩的,不是模型有多强,而是任务拆分粒度、子任务边界、回归校验这些工程细节。爆料里没透露的就是这些 know-how。其他团队就算拿到同款模型,没有这套流水线,还是会卡在合并冲突和环境差异上。


参考:X 多智能体讨论