
具身智能领域终于等到一份”可以信”的评测基准。一个名为 World Model Bench 的可复现世界模型评测平台正式开源,仓库上线两周已经斩获 1.2k 星。项目页第一行写得很直接:“我们修复评测失真,从而让算法对比真正公平。”
修掉环境抖动,把误差从 30% 压回 3%
过去具身智能评测最难的不是模型,而是”环境本身在变”。同一份策略,今天跑出 72 分,明天跑出 51 分,差异主要来自模拟器随机种子、物理引擎步长、场景资源加载顺序的细微抖动。新平台把这些变量统一固定,并把每一次评测的容器镜像、依赖版本、随机数初始化全部打成可复现产物。开发者贴出的实测数据显示,同一策略在 50 次重复评测下分数标准差从过去的 30% 量级压回 3% 以内,这是”是否能比”的关键阈值。
1.2k 星里到底来自哪些社区
从仓库 Issues 看,前两周冒头的提交者分布相当多元:机器人方向的研究生用它做策略对比,自动驾驶仿真团队拿来跑控制器,少量游戏 AI 玩家把它接进自家剧情场景做泛化测试。值得注意的是,平台官方维护的基线里同时收录了世界模型、模型预测控制、纯强化学习三类方法,这意味着不同流派的算法可以放在同一张排行榜上比较,而不是各自报告各自的分数。
具身智能不缺新模型,缺一把公平的尺
这两年具身智能领域几乎每周都有”刷新 SOTA”的新方法,但读完论文常会发现,作者自报的提升来源于换基线、换种子、换难度配置。一把公平的尺比一两个亮眼的新模型更值。World Model Bench 的价值不在于推出新算法,而在于把”环境变量”这件事制度化地锁住。如果接下来几个月主流团队愿意把自己的复现脚本提交到这一仓库,具身智能的论文阅读体验会发生肉眼可见的好转——读者第一次能用一组可复算的数字去判断方法是否真的更强。
参考:世界模型平台仓库