可复现世界模型平台开源：1.2k 星修复评测失真

可复现世界模型评测平台运行中的算法对比界面 — 世界模型评测平台修复环境抖动，结果终于可比

具身智能领域终于等到一份”可以信”的评测基准。一个名为 World Model Bench 的可复现世界模型评测平台正式开源，仓库上线两周已经斩获 1.2k 星。项目页第一行写得很直接：“我们修复评测失真，从而让算法对比真正公平。”

修掉环境抖动，把误差从 30% 压回 3%

过去具身智能评测最难的不是模型，而是”环境本身在变”。同一份策略，今天跑出 72 分，明天跑出 51 分，差异主要来自模拟器随机种子、物理引擎步长、场景资源加载顺序的细微抖动。新平台把这些变量统一固定，并把每一次评测的容器镜像、依赖版本、随机数初始化全部打成可复现产物。开发者贴出的实测数据显示，同一策略在 50 次重复评测下分数标准差从过去的 30% 量级压回 3% 以内，这是”是否能比”的关键阈值。

1.2k 星里到底来自哪些社区

从仓库 Issues 看，前两周冒头的提交者分布相当多元：机器人方向的研究生用它做策略对比，自动驾驶仿真团队拿来跑控制器，少量游戏 AI 玩家把它接进自家剧情场景做泛化测试。值得注意的是，平台官方维护的基线里同时收录了世界模型、模型预测控制、纯强化学习三类方法，这意味着不同流派的算法可以放在同一张排行榜上比较，而不是各自报告各自的分数。

具身智能不缺新模型，缺一把公平的尺

这两年具身智能领域几乎每周都有”刷新 SOTA”的新方法，但读完论文常会发现，作者自报的提升来源于换基线、换种子、换难度配置。一把公平的尺比一两个亮眼的新模型更值。World Model Bench 的价值不在于推出新算法，而在于把”环境变量”这件事制度化地锁住。如果接下来几个月主流团队愿意把自己的复现脚本提交到这一仓库，具身智能的论文阅读体验会发生肉眼可见的好转——读者第一次能用一组可复算的数字去判断方法是否真的更强。

参考：世界模型平台仓库

首个可复现世界模型平台开源：斩获 1.2k 星，解决评测失真

修掉环境抖动，把误差从 30% 压回 3%

1.2k 星里到底来自哪些社区

具身智能不缺新模型，缺一把公平的尺

相关推荐