英伟达推出开源物理AI全能模型,混合架构预测未来动作

AI资讯

一个模型五种模态:Cosmos 3想做物理AI的底座

英伟达在GTC台北上发布了Cosmos 3,号称”全球首个完全开放的全能模型”。它能同时理解和生成五种模态:文本、图像、视频、环境声音和动作轨迹。这不是一个通用对话模型的又一变体——它的目标非常明确:为物理AI(机器人、自动驾驶、视觉AI系统)提供统一的基础模型。

NVIDIA Cosmos 3物理AI全能模型
Cosmos 3采用双Transformer混合架构,同时处理视觉推理、世界生成和动作预测

Cosmos 3的架构与常规大模型不同。它采用了”混合Transformer”设计,将一个推理Transformer和一个专家生成Transformer配对工作。推理Transformer负责理解物体交互、运动和时空关系,生成Transformer则在此基础上产出视频和动作轨迹。英伟达CEO黄仁勋在发布会上表示:”得益于多模态推理的突破,物理AI的大爆炸即将到来。”

模型分为三个层级:Cosmos 3 Super面向最高精度需求,适用于后训练阶段的机器人和自动驾驶;Cosmos 3 Nano主打快速推理,能在”几分之一秒”内完成视频和动作推理;Cosmos 3 Edge则面向实时边缘推理场景,尚未正式发布。

开放权重+实测领先:物理AI赛道的新变量

Cosmos 3的开放程度在同类模型中相当罕见。模型权重在Hugging Face上公开,代码托管于GitHub,支持通过Hugging Face Diffusers进行定制化微调。同时提供NIM微服务形式的部署选项,基础设施合作伙伴包括CoreWeave、Microsoft Azure、Nebius等。

英伟达公布了一组基准测试成绩:在Artificial Analysis、Physics-IQ、PAI-Bench、R-Bench(世界生成)、RoboLab和RoboArena(动作策略)、VANTAGE-Bench和TAR(视觉理解)等多项评测中均排名第一。训练数据覆盖”数十亿级别的文本、图像、视频、声音和动作轨迹样本”。

实际应用层面,Agile Robots、Doosan Robotics、LG Electronics、三星电子和Skild AI等机器人企业已经接入早期访问。自动驾驶领域,理想汽车也出现在合作名单中。Agile Robots的AI团队评价称,Cosmos 3″将合成世界生成、视觉推理和动作模拟统一在一个世界基础模型中”。

开放物理世界模型是正确方向,但”全能”二字言之过早

Cosmos 3最大的价值在于它把视觉推理、世界模拟和动作预测整合进了一个模型。此前,机器人开发者通常需要分别搭建感知模块、仿真环境和策略网络,整个管线复杂且各环节之间容易产生误差累积。统一模型至少在架构层面简化了这个问题。

但”物理AI的全能底座”这个定位目前还只是愿景。英伟达自己承认,物理AI系统”在有限训练数据下的现实世界泛化”仍然是一个未解决的核心挑战。Cosmos 3的生成质量在基准测试中领先,但基准测试与真实机器人部署之间的鸿沟在AI领域是出了名的大。RoCE v2网络、DGX Cloud算力支持、ConnectX-7网卡——整套方案的运行门槛远非普通研究团队所能承受。

另外值得关注的是英伟达同时宣布的”Cosmos Coalition”联盟。创始成员包括Agile Robots、Black Forest Labs、Runway和Skild AI等,目标是”推进开放世界模型在各行业的应用”。一个由英伟达主导的开放联盟,在芯片、模型、工具链全部掌握在同一个公司手中的情况下,”开放”的含金量需要打个问号。


参考链接: