中国人民大学高瓴人工智能学院与至知科技 5 月 30 日联合开源 ClawGym,一个全栈智能体训练框架,仓库一周内冲到 2.5k 星。它的卖点不是训大模型,而是给中小模型做智能体对齐——RLHF、工具调用、多轮规划、评测一条龙,主打「能跑能调能评测」,瞄准 2026 这个「智能体元年」里大量缺乏训练基建的团队。
项目负责人、人大高瓴 AI 学院执行院长、正教授 Wen Jirong 在发布说明里写:「现在做智能体的团队 80% 卡在训练基建上,要么自己拼一堆零散脚本,要么花大价钱买闭源平台。ClawGym 想做的是把这些零件标准化,让一个三人小团队也能跑通完整的 agent 训练闭环。」

三个模块拼成闭环
ClawGym 分三层:训练层(支持 PPO、DPO、GRPO 三种对齐算法,可一键切换)、工具层(内置 40+ 工具沙箱,覆盖代码执行、网页检索、文件操作、数据库查询)、评测层(自带 12 套 agent benchmark,含 SWE-Bench、WebArena、ToolBench 的精简版)。三层用统一的 YAML 配置串起来,改一个参数全链路生效。
框架对硬件门槛压得很低。官方文档给的最小配置是单张 RTX 4090(24GB),能跑通 7B 模型的完整 agent 对齐,这是大多数高校实验室和创业团队能负担的规格。对比同类闭源平台动辄要求 8 张 A100 起步,ClawGym 的门槛低了一个数量级。
评测层是真正的杀手锏
多数开源训练框架只管训,不管评。ClawGym 把评测做成一等公民——训练过程中每隔 N 步自动跑一遍 agent benchmark,把成功率、工具调用准确率、平均步数三条曲线实时画出来。至知科技 CTO Li Heng 解释这个设计:「智能体训练最大的坑是『训练 loss 在降,实际任务能力在退』。不实时评测根本发现不了这种隐性退化。」
社区第一波反馈
开源一周,issue 区已经有 137 条讨论。最高赞的需求是「支持 Qwen3 和 GLM-5 系列」,maintainer 回应说 6 月中旬补上。也有质疑声:有用户测试发现内置工具沙箱的代码执行环境对 Windows 支持不完整,只在 Linux 下完整可用。Wen Jirong 在 issue 里承认了这个限制,说团队优先级是 Linux + Docker,Windows 原生支持要排到 Q3。
中小团队的 agent 训练基建窗口正在打开
ClawGym 真正值得记的,是它把智能体训练从「大厂闭源平台垄断」往「开源标准化框架」推了一步。过去一个三人团队想跑通 agent 对齐,要么拼一堆零散脚本,要么按月付费买闭源平台;现在单张 4090 加一份 YAML 配置就能起步。一旦中小团队都能用统一框架跑通训练闭环,智能体应用的供给侧会快速膨胀。下半年国内做垂直 agent 的创业公司大概率会有一批直接基于 ClawGym 起步,省下自建基建的半年时间——这种「基建被开源拉平」的节点,往往比某个大模型刷新榜单更能改变行业格局。