Anthropic 多智能体工作流泄露：迁移测试通过率极高

多智能体并行执行流程的示意截图 — 一条主任务被切成几十个分支，agent 分头干活

X 平台上流传出 Anthropic 内部多智能体工作流的几张截图。爆料账号在配文里写：这个系统能自动把一条迁移任务拆给数十个子 agent 并行处理，团队内部反馈迁移测试通过率”高得吓人”。

11 天迁移背后的脚本自动化

截图里能看到的工作流大致是这样：开发者输入一个高层目标，例如”把 X 服务从 Python 2 迁到 Python 3.12″，系统会自动生成一个分支脚本，把任务切成数十甚至上百个子任务，每个子任务由一个独立 agent 处理。每个 agent 完成自己那部分后，会把改动提交到一个临时分支，由另一组 agent 跑测试和静态检查。爆料中提到的关键数字是：内部一次系统级迁移在 11 天内完成，迁移涉及的代码行数在 80 万行量级，最终回归测试通过率超过 96%。

对抗性自检前置，是这条工作流的真正护城河

爆料账号在线程里特别强调一个细节：每次合并前，系统会让一组 agent 扮演”攻击方”，专门构造极端输入和边界 case 去打主分支的代码，这一步通过率不到 100% 就不会合并。Anthropic 内部把这套机制叫做”发布前红队”。多位看到爆料的工程师在转推里给出评价：这等于把传统 SRE 的发布演练自动化，对手公司想抄作业，模型能力是一方面，更难复制的是这套流程化的工具调用纪律。

多 agent 看着炫，真正难的是任务怎么切

能跑数十个 agent 协同的厂商不止 Anthropic 一家，但大多数演示停在 demo 阶段。真正决定能不能跑出 11 天迁移这种成绩的，不是模型有多强，而是任务拆分粒度、子任务边界、回归校验这些工程细节。爆料里没透露的就是这些 know-how。其他团队就算拿到同款模型，没有这套流水线，还是会卡在合并冲突和环境差异上。

参考：X 多智能体讨论

Anthropic 内部多智能体工作流细节流出：迁移测试通过率极高

11 天迁移背后的脚本自动化

对抗性自检前置，是这条工作流的真正护城河

多 agent 看着炫，真正难的是任务怎么切

相关推荐