人大与至知开源 ClawGym 全栈智能体训练框架

中国人民大学高瓴人工智能学院与至知科技 5 月 30 日联合开源 ClawGym，一个全栈智能体训练框架，仓库一周内冲到 2.5k 星。它的卖点不是训大模型，而是给中小模型做智能体对齐——RLHF、工具调用、多轮规划、评测一条龙，主打「能跑能调能评测」，瞄准 2026 这个「智能体元年」里大量缺乏训练基建的团队。

项目负责人、人大高瓴 AI 学院执行院长、正教授 Wen Jirong 在发布说明里写：「现在做智能体的团队 80% 卡在训练基建上，要么自己拼一堆零散脚本，要么花大价钱买闭源平台。ClawGym 想做的是把这些零件标准化，让一个三人小团队也能跑通完整的 agent 训练闭环。」

ClawGym 智能体训练框架示意 — 人大与至知开源 ClawGym，把智能体训练的零散脚本拼成标准闭环

三个模块拼成闭环

ClawGym 分三层：训练层（支持 PPO、DPO、GRPO 三种对齐算法，可一键切换）、工具层（内置 40+ 工具沙箱，覆盖代码执行、网页检索、文件操作、数据库查询）、评测层（自带 12 套 agent benchmark，含 SWE-Bench、WebArena、ToolBench 的精简版）。三层用统一的 YAML 配置串起来，改一个参数全链路生效。

框架对硬件门槛压得很低。官方文档给的最小配置是单张 RTX 4090（24GB），能跑通 7B 模型的完整 agent 对齐，这是大多数高校实验室和创业团队能负担的规格。对比同类闭源平台动辄要求 8 张 A100 起步，ClawGym 的门槛低了一个数量级。

评测层是真正的杀手锏

多数开源训练框架只管训，不管评。ClawGym 把评测做成一等公民——训练过程中每隔 N 步自动跑一遍 agent benchmark，把成功率、工具调用准确率、平均步数三条曲线实时画出来。至知科技 CTO Li Heng 解释这个设计：「智能体训练最大的坑是『训练 loss 在降，实际任务能力在退』。不实时评测根本发现不了这种隐性退化。」

社区第一波反馈

开源一周，issue 区已经有 137 条讨论。最高赞的需求是「支持 Qwen3 和 GLM-5 系列」，maintainer 回应说 6 月中旬补上。也有质疑声：有用户测试发现内置工具沙箱的代码执行环境对 Windows 支持不完整，只在 Linux 下完整可用。Wen Jirong 在 issue 里承认了这个限制，说团队优先级是 Linux + Docker，Windows 原生支持要排到 Q3。

中小团队的 agent 训练基建窗口正在打开

ClawGym 真正值得记的，是它把智能体训练从「大厂闭源平台垄断」往「开源标准化框架」推了一步。过去一个三人团队想跑通 agent 对齐，要么拼一堆零散脚本，要么按月付费买闭源平台；现在单张 4090 加一份 YAML 配置就能起步。一旦中小团队都能用统一框架跑通训练闭环，智能体应用的供给侧会快速膨胀。下半年国内做垂直 agent 的创业公司大概率会有一批直接基于 ClawGym 起步，省下自建基建的半年时间——这种「基建被开源拉平」的节点，往往比某个大模型刷新榜单更能改变行业格局。

参考：ClawGym GitHub 仓库

人大与至知联合开源 ClawGym：全栈智能体训练框架斩 2.5k 星

三个模块拼成闭环

评测层是真正的杀手锏

社区第一波反馈

中小团队的 agent 训练基建窗口正在打开

相关推荐