黄仁勋 Computex 演讲：Vera 架构与智能体推理

Vera 架构代表了 NVIDIA 从训练芯片向推理芯片的战略转型。未来的计算不是让模型学会知识，而是让模型学会思考。——黄仁勋在 Computex 2026 主题演讲

黄仁勋 Computex 演讲 Vera 架构

Computex 2026：黄仁勋描绘”推理优先”的新蓝图

在 2026 年台北 Computex 展会上，NVIDIA CEO 黄仁勋发表了长达两小时的主题演讲，其中最重磅的发布当属全新的 Vera 架构。这是继 Hopper、Blackwell 之后 NVIDIA 的第三代数据中心 GPU 架构，但与前两代最大的不同在于：Vera 是专门为推理（Inference）而非训练（Training）优化的。黄仁勋在演讲中指出，当前 AI 工作负载中推理运算占比已从 2023 年的 40% 增长到 2026 年的 68%，预计到 2028 年将超过 80%。Vera 架构引入了多项针对推理负载的创新设计，包括动态稀疏计算单元、低精度张量核心（FP4/FP6 原生支持）以及片上推理调度器。据 NVIDIA 官方数据，Vera B200 GPU 在 Llama 3 推理任务上的每瓦性能是 H100 的 5.2 倍，是 Blackwell B100 的 1.8 倍。

黄仁勋在演讲中还着重介绍了”智能体推理”（Agentic Reasoning）的概念框架。他认为，下一代 AI 应用不再是简单的问答模式，而是由多个模型协同完成的复杂推理任务。一个典型的智能体工作流可能需要调用 5 到 10 次模型推理，涉及规划、工具调用、自我纠错等多个步骤。Vera 架构的推理调度器正是为此设计的——它能够在芯片级别对多个推理请求进行优先级排序和资源分配，将端到端延迟降低 40% 以上。黄仁勋以自动驾驶场景为例：一个 L4 级别的自动驾驶系统每秒需要执行超过 200 次独立推理，Vera 的推理吞吐量可达 4500 TOPS，恰好满足这一需求。摩根士丹利的分析报告指出，NVIDIA 的推理芯片业务在 2027 年有望贡献公司收入的 55%，首次超过训练芯片。

价值评估：推理专用架构才是 AI 硬件下半场的胜负手

过去三年，NVIDIA 的成功建立在”训练 GPU”的垄断地位上。但随着 GPT-4、Claude 3 等超大模型进入部署阶段，市场对推理芯片的需求正在以惊人的速度追赶训练芯片。黄仁勋在 Computex 上展示的 Vera 架构，意味着 NVIDIA 正式承认了这一趋势，并主动调整产品路线。AMD 的 MI400 系列和 Intel 的 Falcon Shores 也在推理性能上发力，但 NVIDIA 凭借 CUDA 环境和 TensorRT-LLM 的软件栈护城河，仍然保持着明显优势。据 MLPerf Inference 4.1 的测试结果，Vera B200 在主流 LLM 推理基准上的表现领先 AMD MI400 约 35%。

对于 AI 应用开发者来说，Vera 架构的发布意味着推理成本的进一步下降。以运行一个中等规模的客服智能体为例，在 H100 上每月需要约 1.2 万美元的算力成本，在 B200 上降至 6500 美元，而 Vera B200 有望进一步压缩到 3500 美元以内。成本的持续降低将催生更多”推理密集型”应用——那些过去因为算力太贵而无法落地的场景（如实时视频分析、多轮对话智能体、个性化推荐引擎），现在都变得经济可行。黄仁勋在演讲结尾说的一句话值得所有从业者思考：”训练是 AI 的童年，推理才是 AI 的成年。”NVIDIA 用 Vera 架构宣告了一个新时代的开始。

参考：https://m.okjike.com/originalPosts/6a1d268ec2dc8bf83f82366d

黄仁勋 Computex 演讲发布 Vera 架构

Computex 2026：黄仁勋描绘”推理优先”的新蓝图

价值评估：推理专用架构才是 AI 硬件下半场的胜负手

相关推荐