英伟达开源物理AI全能模型混合架构预测动作

一个模型五种模态：Cosmos 3想做物理AI的底座

英伟达在GTC台北上发布了Cosmos 3，号称”全球首个完全开放的全能模型”。它能同时理解和生成五种模态：文本、图像、视频、环境声音和动作轨迹。这不是一个通用对话模型的又一变体——它的目标非常明确：为物理AI（机器人、自动驾驶、视觉AI系统）提供统一的基础模型。

NVIDIA Cosmos 3物理AI全能模型 — Cosmos 3采用双Transformer混合架构，同时处理视觉推理、世界生成和动作预测

Cosmos 3的架构与常规大模型不同。它采用了”混合Transformer”设计，将一个推理Transformer和一个专家生成Transformer配对工作。推理Transformer负责理解物体交互、运动和时空关系，生成Transformer则在此基础上产出视频和动作轨迹。英伟达CEO黄仁勋在发布会上表示：”得益于多模态推理的突破，物理AI的大爆炸即将到来。”

模型分为三个层级：Cosmos 3 Super面向最高精度需求，适用于后训练阶段的机器人和自动驾驶；Cosmos 3 Nano主打快速推理，能在”几分之一秒”内完成视频和动作推理；Cosmos 3 Edge则面向实时边缘推理场景，尚未正式发布。

开放权重+实测领先：物理AI赛道的新变量

Cosmos 3的开放程度在同类模型中相当罕见。模型权重在Hugging Face上公开，代码托管于GitHub，支持通过Hugging Face Diffusers进行定制化微调。同时提供NIM微服务形式的部署选项，基础设施合作伙伴包括CoreWeave、Microsoft Azure、Nebius等。

英伟达公布了一组基准测试成绩：在Artificial Analysis、Physics-IQ、PAI-Bench、R-Bench（世界生成）、RoboLab和RoboArena（动作策略）、VANTAGE-Bench和TAR（视觉理解）等多项评测中均排名第一。训练数据覆盖”数十亿级别的文本、图像、视频、声音和动作轨迹样本”。

实际应用层面，Agile Robots、Doosan Robotics、LG Electronics、三星电子和Skild AI等机器人企业已经接入早期访问。自动驾驶领域，理想汽车也出现在合作名单中。Agile Robots的AI团队评价称，Cosmos 3″将合成世界生成、视觉推理和动作模拟统一在一个世界基础模型中”。

开放物理世界模型是正确方向，但”全能”二字言之过早

Cosmos 3最大的价值在于它把视觉推理、世界模拟和动作预测整合进了一个模型。此前，机器人开发者通常需要分别搭建感知模块、仿真环境和策略网络，整个管线复杂且各环节之间容易产生误差累积。统一模型至少在架构层面简化了这个问题。

但”物理AI的全能底座”这个定位目前还只是愿景。英伟达自己承认，物理AI系统”在有限训练数据下的现实世界泛化”仍然是一个未解决的核心挑战。Cosmos 3的生成质量在基准测试中领先，但基准测试与真实机器人部署之间的鸿沟在AI领域是出了名的大。RoCE v2网络、DGX Cloud算力支持、ConnectX-7网卡——整套方案的运行门槛远非普通研究团队所能承受。

另外值得关注的是英伟达同时宣布的”Cosmos Coalition”联盟。创始成员包括Agile Robots、Black Forest Labs、Runway和Skild AI等，目标是”推进开放世界模型在各行业的应用”。一个由英伟达主导的开放联盟，在芯片、模型、工具链全部掌握在同一个公司手中的情况下，”开放”的含金量需要打个问号。

参考链接：

英伟达推出开源物理AI全能模型，混合架构预测未来动作

一个模型五种模态：Cosmos 3想做物理AI的底座

开放权重+实测领先：物理AI赛道的新变量

开放物理世界模型是正确方向，但”全能”二字言之过早

相关推荐