具身智能领域长期困于一个悖论:机器人可以”看见”世界,却难以”理解”如何行动。传统方案将感知、规划、控制拆分为独立模块,信息在模块间传递时不断损失,导致机器人对复杂环境的响应迟钝且机械。眸深智能(Moushen AI)近日发布的原生世界动作模型(World Action Model),试图从架构层面打破这一瓶颈,将空间感知与动作决策统一在同一框架中。

时空统一建模:从视觉输入到动作输出的零延迟映射
眸深智能的模型核心在于放弃了传统的”感知-规划-控制”流水线架构,改为在统一的时空特征空间中同时建模物体位置、运动趋势与可执行动作。团队在技术白皮书中公开的数据显示,新模型在处理连续抓取-放置任务时,端到端延迟较传统流水线降低约 62%,模型参数量仅为同等性能方案的 1/3。在家庭物品整理、桌面操作等 12 项基础任务的实测中,新模型的任务成功率平均达 87.3%,高出此前最优基线方案 14 个百分点。
值得注意的是,这一架构的另一关键改进在于对”动作先验”的显式学习。不同于过去模型只能根据当前视觉输入被动决策,世界动作模型通过学习大量人类操作的时空轨迹,形成了对”接下来会发生什么”的预测能力。眸深智能联合创始人兼 CTO 张逸轩表示:”当机器人不仅知道杯子的位置,还预判到下一帧它将向右移动时,抓取的成功率会有质的提升。”
端侧算力门槛大幅下降,数亿融资印证商业前景
性能提升之外,算力成本的压缩是这项成果的另一亮点。研究团队公布的数据表明,经过量化压缩后,模型可在单块 NVIDIA RTX 4090 上以 30 FPS 的实时帧率运行推理,而此前达到类似效果需要至少两块 A100 加速卡。这一进步意味着具身智能系统不再必须依赖昂贵的数据中心级算力,为消费级机器人产品铺平了道路。
眸深智能的商业化进程也随之加速。今年 4 月,公司完成由红杉中国领投的 B 轮融资,累计融资额超过 4 亿元人民币。投资方蓝驰创投管理合伙人曹巍评价道:”世界动作模型的设计创新直接指向’能用得起’的具身智能,这正是产业化的关键卡口。目前行业内多数团队还在走优化老路的分支方案,眸深选择从底层重构,赌的是长期壁垒。”
真实环境泛化仍是待解题
不过从实验室到真实世界的鸿沟依然巨大。眸深智能在技术报告中坦承,当前模型在家庭场景中的成功率虽高,但一旦环境光照变化剧烈或出现训练集中未覆盖的物体类型,任务完成率会下降 15-20%。此外,模型对非结构化环境——例如户外工地、医疗手术室等——的泛化能力尚未经过大规模验证。
张逸轩也承认,当前版本更关注”单步动作”的准确性,对于需要长时序推理的复杂任务(如多步骤装配),模型的决策链还不够稳定。他透露团队下一阶段重点是将世界动作模型与语言模型结合,让机器人能理解指令中的”先做 A、再做 B”这类序列约束。
参考:眸深智能官方