英伟达 Vera CPU 首批样片交付 xAI：88 核 Olympus 对标 Grace 翻倍

NVIDIA Vera CPU 芯片实物展示 — 英伟达自研 Arm CPU Vera 首批工程样片在 5 月 19 日开始外送

英伟达 5 月 19 日开始向首批客户递送自研 CPU Vera 的工程样片。这是英伟达继 Grace 之后的第二代 Arm 数据中心 CPU，配套 Rubin GPU 形成 Vera Rubin 平台。X 用户 @op7418 转发了 Jensen Huang 把首批芯片亲自交给 Elon Musk 的现场图——xAI 的 Colossus 2 集群是最早接入客户。

从 Grace 到 Vera 的硬件账本

Grace 用的是公版 Arm Neoverse V2，72 核 72 线程；Vera 换成英伟达自研的 Olympus 核心，88 个 176 线程，启用 spatial multithreading 让每核心跑两线程，L2 缓存翻倍到 2MB。架构上从 Armv9 升到 Armv9.2，CPU-GPU 互连用 NVLink-C2C，单方向带宽 1.8 TB/s——比 Grace Hopper 的 900 GB/s 翻倍。Olympus 核心是英伟达把自家 CPU 重新做认真的开始：过去 Grace 选择 Neoverse V2 是为了把工期压到两年内交付，Vera 这一代等于把 CPU 后端 IP 也收回到自家。

这颗芯片是给智能体编排准备的

Vera Rubin NVL72 整柜规格：72 张 Rubin GPU、36 颗 Vera CPU，总核心 3168 个 Olympus 核，总快速内存 75 TB。CPU 数量从 Grace Blackwell NVL72 的 72 颗压到 36 颗，每两张 GPU 共享一颗 CPU——对应判断是当代推理负载里 CPU 不再是瓶颈，省下来的功耗预算转给 GPU 和互连。

英伟达 hyperscale 副总裁 Ian Buck 在 5 月 19 日的简报会里把 Vera 的目标场景说得很直接：”Vera 是为 agentic 工作负载设计的 host CPU——大量小任务并发调度、跨 GPU 张量同步、KV cache 在主机内存里的快速进出。”翻译过来是：智能体推理时一个请求会被拆成几十个 LLM 调用，CPU 负责的不再是计算，是编排员——管 token 流、管会话状态、管工具调用回执。

真正考验在 2027 一季度的量产

Jensen 把头一批样片亲交 Musk 有公关成分，也有实物意义。xAI 的 Colossus 2 是公开计划里唯一要把规模拉到 100 万张 GPU 量级的集群，2026 下半年切换到 Vera Rubin——这是 Vera 第一个真正会被压满的客户。Google 有 TPU + Axion、AWS 有 Trainium 2 + Graviton 4，两家都没切到 Vera；Meta、Microsoft、Oracle 几乎确定会接。Vera 这一代的真正考验是 2027 一季度的量产能力——TSMC N3P 上的良率会决定它在数据中心市场的渗透速度。

参考链接：

英伟达开始交付首款自研 CPU 芯片

从 Grace 到 Vera 的硬件账本

这颗芯片是给智能体编排准备的

真正考验在 2027 一季度的量产

相关推荐