复旦通义开源 ToolCUA 超越 Claude：Agent 混合决策

智能体框架面临一个长期难题：当任务涉及多步操作时，模型经常在”该不该调用工具”和”该调用哪个工具”之间陷入路径困惑——反复尝试错误的 API、消耗大量 token，最终给出的结果还可能偏差。复旦大学与通义千问团队联合开源的 ToolCUA 框架，给出了一套截然不同的方案：让模型在每一步都同时备好”思考路径”和”行动方案”，再按不确定性择优混合作出决策。

混合决策：同时搜索思考与行动路径

ToolCUA 的全称是 Tool-Conditioned Uncertainty-Aware Agent，其架构的最大创新在于引入”双通道决策机制”。传统的 ReAct 风格智能体在每步只做一种选择——要么思考、要么行动——而 ToolCUA 在每一步同时展开一条纯推理链和一条工具调用链，然后通过一个不确定性估计模块比较两条路径的置信度，选择置信度更高的方向继续。这种”先比后走”的策略有效规避了单通道模型在模棱两可场景中的路径误判问题。

团队在标准 Agent 基准测试集上的数据表现颇有说服力。在涵盖 14 个领域的 ToolBench 测试中，ToolCUA 的整体任务完成率达到 86.7%，超过了此前该榜单上表现最好的闭源模型 Claude 3.5 Sonnet（81.2%）和 GPT-4o（79.5%）。在涉及 5 步以上长序列的工具调用任务中，ToolCUA 的路径正确率高出 Claude 约 12 个百分点，显示出混合决策在长程任务中的稳定性优势。

ToolCUA 混合决策架构示意图 — ToolCUA 通过同时评估推理与工具调用路径来优化决策。

开源落地：社区协作加速智能体框架进化

ToolCUA 的另一关键价值在于完全开源。复旦大学计算机科学技术学院教授邱锡鹏在项目说明中指出：”智能体框架的进步依赖社区通过大量真实使用场景来验证和迭代，闭源模型很难做到这一点。”项目已在 GitHub 上释放了完整的训练代码、评估脚本和 30 余个预训练 checkpoint，支持从 LoRA 微调到全参数微调的灵活适配。

从技术路线看，ToolCUA 代表了智能体框架从”单通道”向”混合决策”演进的方向。邱锡鹏进一步表示：”下一阶段的工作集中在两个方向：一是降低双通道决策带来的推理开销，二是在没有人工标注的环境下实现自监督的路径探索。目前 ToolCUA 的推理耗时约为 ReAct 方案的 1.8 倍，我们计划通过知识蒸馏将这一倍数压缩到 1.2 倍以内。”团队还透露正在与通义千问合作，将 ToolCUA 的决策能力直接集成到通义系列模型的 API 层。

参考：GitHub 仓库

复旦通义开源 ToolCUA：Agent 混合决策高准确率超越 Claude

混合决策：同时搜索思考与行动路径

开源落地：社区协作加速智能体框架进化

相关推荐