
英伟达 5 月 19 日开始向首批客户递送自研 CPU Vera 的工程样片。这是英伟达继 Grace 之后的第二代 Arm 数据中心 CPU,配套 Rubin GPU 形成 Vera Rubin 平台。X 用户 @op7418 转发了 Jensen Huang 把首批芯片亲自交给 Elon Musk 的现场图——xAI 的 Colossus 2 集群是最早接入客户。
从 Grace 到 Vera 的硬件账本
Grace 用的是公版 Arm Neoverse V2,72 核 72 线程;Vera 换成英伟达自研的 Olympus 核心,88 个 176 线程,启用 spatial multithreading 让每核心跑两线程,L2 缓存翻倍到 2MB。架构上从 Armv9 升到 Armv9.2,CPU-GPU 互连用 NVLink-C2C,单方向带宽 1.8 TB/s——比 Grace Hopper 的 900 GB/s 翻倍。Olympus 核心是英伟达把自家 CPU 重新做认真的开始:过去 Grace 选择 Neoverse V2 是为了把工期压到两年内交付,Vera 这一代等于把 CPU 后端 IP 也收回到自家。
这颗芯片是给智能体编排准备的
Vera Rubin NVL72 整柜规格:72 张 Rubin GPU、36 颗 Vera CPU,总核心 3168 个 Olympus 核,总快速内存 75 TB。CPU 数量从 Grace Blackwell NVL72 的 72 颗压到 36 颗,每两张 GPU 共享一颗 CPU——对应判断是当代推理负载里 CPU 不再是瓶颈,省下来的功耗预算转给 GPU 和互连。
英伟达 hyperscale 副总裁 Ian Buck 在 5 月 19 日的简报会里把 Vera 的目标场景说得很直接:”Vera 是为 agentic 工作负载设计的 host CPU——大量小任务并发调度、跨 GPU 张量同步、KV cache 在主机内存里的快速进出。”翻译过来是:智能体推理时一个请求会被拆成几十个 LLM 调用,CPU 负责的不再是计算,是编排员——管 token 流、管会话状态、管工具调用回执。
真正考验在 2027 一季度的量产
Jensen 把头一批样片亲交 Musk 有公关成分,也有实物意义。xAI 的 Colossus 2 是公开计划里唯一要把规模拉到 100 万张 GPU 量级的集群,2026 下半年切换到 Vera Rubin——这是 Vera 第一个真正会被压满的客户。Google 有 TPU + Axion、AWS 有 Trainium 2 + Graviton 4,两家都没切到 Vera;Meta、Microsoft、Oracle 几乎确定会接。Vera 这一代的真正考验是 2027 一季度的量产能力——TSMC N3P 上的良率会决定它在数据中心市场的渗透速度。
参考链接: