智能体框架面临一个长期难题:当任务涉及多步操作时,模型经常在”该不该调用工具”和”该调用哪个工具”之间陷入路径困惑——反复尝试错误的 API、消耗大量 token,最终给出的结果还可能偏差。复旦大学与通义千问团队联合开源的 ToolCUA 框架,给出了一套截然不同的方案:让模型在每一步都同时备好”思考路径”和”行动方案”,再按不确定性择优混合作出决策。
混合决策:同时搜索思考与行动路径
ToolCUA 的全称是 Tool-Conditioned Uncertainty-Aware Agent,其架构的最大创新在于引入”双通道决策机制”。传统的 ReAct 风格智能体在每步只做一种选择——要么思考、要么行动——而 ToolCUA 在每一步同时展开一条纯推理链和一条工具调用链,然后通过一个不确定性估计模块比较两条路径的置信度,选择置信度更高的方向继续。这种”先比后走”的策略有效规避了单通道模型在模棱两可场景中的路径误判问题。
团队在标准 Agent 基准测试集上的数据表现颇有说服力。在涵盖 14 个领域的 ToolBench 测试中,ToolCUA 的整体任务完成率达到 86.7%,超过了此前该榜单上表现最好的闭源模型 Claude 3.5 Sonnet(81.2%)和 GPT-4o(79.5%)。在涉及 5 步以上长序列的工具调用任务中,ToolCUA 的路径正确率高出 Claude 约 12 个百分点,显示出混合决策在长程任务中的稳定性优势。

开源落地:社区协作加速智能体框架进化
ToolCUA 的另一关键价值在于完全开源。复旦大学计算机科学技术学院教授邱锡鹏在项目说明中指出:”智能体框架的进步依赖社区通过大量真实使用场景来验证和迭代,闭源模型很难做到这一点。”项目已在 GitHub 上释放了完整的训练代码、评估脚本和 30 余个预训练 checkpoint,支持从 LoRA 微调到全参数微调的灵活适配。
从技术路线看,ToolCUA 代表了智能体框架从”单通道”向”混合决策”演进的方向。邱锡鹏进一步表示:”下一阶段的工作集中在两个方向:一是降低双通道决策带来的推理开销,二是在没有人工标注的环境下实现自监督的路径探索。目前 ToolCUA 的推理耗时约为 ReAct 方案的 1.8 倍,我们计划通过知识蒸馏将这一倍数压缩到 1.2 倍以内。”团队还透露正在与通义千问合作,将 ToolCUA 的决策能力直接集成到通义系列模型的 API 层。
参考:GitHub 仓库