英伟达发布无人出租车开源模型 Alpamayo-2

AI资讯

6 月 1 日,NVIDIA 在 GTC Taipei 上发布了 Alpamayo-2 Super,一个 320 亿参数的开放推理模型,专为 L4 级无人驾驶出租车的开发设计。这是 NVIDIA 迄今发布的最强开源驾驶基础模型,也是一个完整的自动驾驶开发平台——同时发布的还有闭环强化学习框架 AlpaGym、生成式世界模型 OmniDreams 以及基于 Omniverse NuRec 的神经重建技能。从发布数据的规模来看,Alpamayo 系列自上线以来累计下载量已接近 40 万次,并获得 COMPUTEX Best Choice Awards 车辆技术与智能座舱类别的奖项。

从感知到决策的全栈推理:320 亿参数 VLA 模型的设计逻辑

Alpamayo-2 Super 的核心是一套视觉-语言-动作(VLA)模型架构,基于 NVIDIA Cosmos 世界基础模型构建。相比上一代 100 亿参数的 Alpamayo 1.5,新模型的参数量提升了 3 倍,由此带来的能力升级并非只是量变。

首先,模型实现了 360 度全周感知——从原先仅依赖前向摄像头扩展至前、侧、后多视角输入,使车辆在变道、汇入车流和通过交叉路口时拥有完整环境上下文。其次,Alpamayo-2 引入了一种称为 Meta-Action 的输出机制,模型可以预测轨迹和因果链(Chain-of-Causation, CoC),还能直接输出”让行”、”变道”、”停车”等宏观驾驶决策,为下游规划模块提供更高层次的语义指导。

  • 参数规模:320 亿参数,基于 Cosmos 世界基础模型构建,较前代提升 3 倍
  • 全周感知:从单前向摄像头扩展至 360 度多视角覆盖
  • Meta-Action 输出:支持让行、变道、停车等宏观决策预测
  • 推理自动标注:通过 2D Grounding 实现高质量推理标签自动生成,标注周期从数月压缩至数天
  • 教师模型定位:设计为教师模型,可通过蒸馏部署至车规级 DRIVE AGX Thor 平台

“Alpamayo 意味着汽车开始安全地’推理’,而不再只是’驾驶’。”NVIDIA 创始人兼 CEO 黄仁勋(Jensen Huang)在发布会上表示,”只有 NVIDIA 能同时提供开放模型、仿真、真实世界数据和 Agent 技能,让全球无人驾驶出租车有机会开发出理解边缘案例、解释决策、赢得信任的 L4 能力。”

AlpaGym 与 OmniDreams:从数据采集到闭环训练的完整工具链

模型本身之外,NVIDIA 此次同步发布的配套工具链或许具有更长远的行业影响。AlpaGym 是一个开源的高吞吐闭环强化学习框架,与传统的开环训练(模型在固定数据集上生成单次动作)不同,AlpaGym 在 AlpaSim 仿真环境中运行持续的”观测-决策”循环:每一次刹车、转向和路径选择都会改变环境状态,模型必须从这些交互的后果中学习。

OmniDreams 则是一个生成式世界模型,专为自动驾驶场景的闭环生成而设计。它可以在仿真环境中生成极其罕见的长尾驾驶场景——那些在真实路测中可能需要数百万公里才能遇到一次的边界情况——供模型在仿真中反复训练和验证。据 NVIDIA 介绍,CoC 自动标注管线也已作为开源项目发布在 GitHub 上,无需任何人工标注即可从原始驾驶片段中生成因果连接化的决策标签。

“开放权重的好处在于,整个行业不必每家从零开始。”论文相关技术报告中指出,”从 100 亿参数的 Nano 版到 320 亿参数的 Super 版,下游自动驾驶方案继承的高质量推理和感知能力来自单次开放发布。”Alpamayo-2 Super 的模型权重预计今年夏天在 Hugging Face 和 GitHub 上开放。

局限性与后续

Alpamayo-2 Super 虽然参数规模大幅增长,但 L4 级无人驾驶的真正挑战——极端天气、非结构化道路、人车混行的复杂交互——仍然需要在真实世界中长期验证。仿真环境中的闭环训练虽然能覆盖大量长尾场景,但仿真与现实之间的 Domain Gap 仍是行业级难题。此外,32B 参数的教师模型需要蒸馏至车规级芯片才能实际部署,蒸馏过程中的性能损失量尚未公开披露。NVIDIA 表示,未来将陆续推出更多 Alpamayo 家族模型,并持续扩展 AlpaGym 的仿真场景库。


参考:NVIDIA Launches Alpamayo-2 Super Open Reasoning Model for Robotaxis