西湖大学推出具身动作模型

GitHub精选
西湖大学推出具身动作模型

OpenHelix-Team 在 5 月 22 日开源了 HiF-VLA 项目,仓库地址 OpenHelix-Team/HiF-VLA,论文与代码同步放出。HiF-VLA 是一个面向机器人的 Vision-Language-Action 模型,主要贡献是把”未来预测”作为决策的中间步骤——机器人先在内部模拟未来几帧物理世界会怎么变化,再据此决定当下的动作。这种”边想边做”的架构在具身智能领域不是新概念,但 HiF-VLA 把它做成了可开源、可复现的工业级方案。

团队主导单位是西湖大学,过去一年这个学校在具身智能赛道的产出节奏明显加快,HiF-VLA 是继 OpenHelix 系列之前几个项目之后又一次受关注的发布。

把世界模型嵌进 VLA 的具体做法

VLA 模型的标准做法是直接把视觉观测映射到机器人动作——看到画面,输出关节角度。这种端到端方式在简单任务上有效,但碰到长程任务、多步推理、需要预判物体物理后果的场景时就会失效。机器人面对”把杯子从桌子边缘移开避免摔下去”这种任务时,需要预测”如果不动会怎样”,VLA 直接映射的方式很难学到这种隐式预测。

HiF-VLA 的核心改动是显式引入未来预测分支。模型在生成动作前,先生成对未来视觉观测的预测(一个 latent 表征,不是真实图像),然后基于这个预测决定动作。训练时这个预测分支接受额外的监督信号——预测的未来表征要和真实未来观测对齐。这种结构让模型在内部学到了一个轻量级的世界模型,决策时能调用。

开源带来的可复现性是论文之外的重头戏

具身智能赛道近两年的论文产出量很大,但能直接拿来跑的项目少。一篇论文背后通常隐藏几十个未公开的工程细节——数据预处理、归一化方式、超参敏感性、特定硬件配置。HiF-VLA 把代码、训练脚本、模型权重一起开源,相当于把这些隐藏成本承担了,对学术界后续工作是直接的助推。

仓库的 README 提到团队同时开放了在多个公开机器人数据集上的预训练权重,并给出了具体的复现步骤。这种程度的开放在这个领域不算常见——很多 SOTA 工作只放论文不放代码,或者只放推理脚本不放训练代码。HiF-VLA 的开放姿态让其他研究团队可以快速验证、对比、改进,对方法论本身的迭代速度有直接影响。

“边想边做”的真正考验在长程任务上

HiF-VLA 的实验主要在桌面级操作任务上展开(拿物体、移动、堆叠、倾倒),这类任务的时间跨度通常在几秒到几十秒。论文展示的对比实验显示 HiF-VLA 在这些任务上比同尺寸 baseline VLA 有明显提升。但要把这套架构推到长程任务(开门进屋、做一顿饭、整理房间),还需要更多验证。

真正的瓶颈是预测未来的远视距离。预测下 1 秒比较容易,预测下 10 秒就要面对累积误差。HiF-VLA 当前实现里预测的是短期 latent 状态,对长期规划帮助有限。这也是世界模型类研究普遍面对的难题——预测能力随时间步数衰减得很快。

具身智能的开源节奏正在加速

放在更宏观的视角看,HiF-VLA 是今年开源具身智能项目密集度的一个缩影。NVIDIA 的 SONIC、OpenHelix 系列、Physical Intelligence 的 π 系列、Lerobot 这一波项目共同把”机器人 + 大模型”的研究门槛降下来。学术界从过去”机器人公司各自闭源”的封闭格局,慢慢转向”开源模型 + 公开数据”的协作模式。

对中国学术机构来说,HiF-VLA 这种成果代表了一种可持续路径——不依赖海量算力,不依赖独家硬件,靠方法论上的设计和开源贡献获得国际关注。下一步值得盯的是 OpenHelix 团队会不会把这套架构推到真实机器人平台上做端到端验证,那才是这一类工作真正进入工程视野的标志。


参考资料: