眸深智能发布时空一体世界动作模型获数亿融资

具身智能领域长期困于一个悖论：机器人可以”看见”世界，却难以”理解”如何行动。传统方案将感知、规划、控制拆分为独立模块，信息在模块间传递时不断损失，导致机器人对复杂环境的响应迟钝且机械。眸深智能（Moushen AI）近日发布的原生世界动作模型（World Action Model），试图从架构层面打破这一瓶颈，将空间感知与动作决策统一在同一框架中。

眸深智能世界动作模型架构示意图 — 眸深智能将空间感知与动作决策统一在同一框架中。

时空统一建模：从视觉输入到动作输出的零延迟映射

眸深智能的模型核心在于放弃了传统的”感知-规划-控制”流水线架构，改为在统一的时空特征空间中同时建模物体位置、运动趋势与可执行动作。团队在技术白皮书中公开的数据显示，新模型在处理连续抓取-放置任务时，端到端延迟较传统流水线降低约 62%，模型参数量仅为同等性能方案的 1/3。在家庭物品整理、桌面操作等 12 项基础任务的实测中，新模型的任务成功率平均达 87.3%，高出此前最优基线方案 14 个百分点。

值得注意的是，这一架构的另一关键改进在于对”动作先验”的显式学习。不同于过去模型只能根据当前视觉输入被动决策，世界动作模型通过学习大量人类操作的时空轨迹，形成了对”接下来会发生什么”的预测能力。眸深智能联合创始人兼 CTO 张逸轩表示：”当机器人不仅知道杯子的位置，还预判到下一帧它将向右移动时，抓取的成功率会有质的提升。”

端侧算力门槛大幅下降，数亿融资印证商业前景

性能提升之外，算力成本的压缩是这项成果的另一亮点。研究团队公布的数据表明，经过量化压缩后，模型可在单块 NVIDIA RTX 4090 上以 30 FPS 的实时帧率运行推理，而此前达到类似效果需要至少两块 A100 加速卡。这一进步意味着具身智能系统不再必须依赖昂贵的数据中心级算力，为消费级机器人产品铺平了道路。

眸深智能的商业化进程也随之加速。今年 4 月，公司完成由红杉中国领投的 B 轮融资，累计融资额超过 4 亿元人民币。投资方蓝驰创投管理合伙人曹巍评价道：”世界动作模型的设计创新直接指向’能用得起’的具身智能，这正是产业化的关键卡口。目前行业内多数团队还在走优化老路的分支方案，眸深选择从底层重构，赌的是长期壁垒。”

真实环境泛化仍是待解题

不过从实验室到真实世界的鸿沟依然巨大。眸深智能在技术报告中坦承，当前模型在家庭场景中的成功率虽高，但一旦环境光照变化剧烈或出现训练集中未覆盖的物体类型，任务完成率会下降 15-20%。此外，模型对非结构化环境——例如户外工地、医疗手术室等——的泛化能力尚未经过大规模验证。

张逸轩也承认，当前版本更关注”单步动作”的准确性，对于需要长时序推理的复杂任务（如多步骤装配），模型的决策链还不够稳定。他透露团队下一阶段重点是将世界动作模型与语言模型结合，让机器人能理解指令中的”先做 A、再做 B”这类序列约束。

参考：眸深智能官方

复旦系眸深智能首创时空一体世界动作模型

时空统一建模：从视觉输入到动作输出的零延迟映射

端侧算力门槛大幅下降，数亿融资印证商业前景

真实环境泛化仍是待解题

相关推荐