黄仁勋 Computex 演讲发布 Vera 架构

AI资讯

Vera 架构代表了 NVIDIA 从训练芯片向推理芯片的战略转型。未来的计算不是让模型学会知识,而是让模型学会思考。——黄仁勋在 Computex 2026 主题演讲

黄仁勋 Computex 演讲 Vera 架构

Computex 2026:黄仁勋描绘”推理优先”的新蓝图

在 2026 年台北 Computex 展会上,NVIDIA CEO 黄仁勋发表了长达两小时的主题演讲,其中最重磅的发布当属全新的 Vera 架构。这是继 Hopper、Blackwell 之后 NVIDIA 的第三代数据中心 GPU 架构,但与前两代最大的不同在于:Vera 是专门为推理(Inference)而非训练(Training)优化的。黄仁勋在演讲中指出,当前 AI 工作负载中推理运算占比已从 2023 年的 40% 增长到 2026 年的 68%,预计到 2028 年将超过 80%。Vera 架构引入了多项针对推理负载的创新设计,包括动态稀疏计算单元、低精度张量核心(FP4/FP6 原生支持)以及片上推理调度器。据 NVIDIA 官方数据,Vera B200 GPU 在 Llama 3 推理任务上的每瓦性能是 H100 的 5.2 倍,是 Blackwell B100 的 1.8 倍。

黄仁勋在演讲中还着重介绍了”智能体推理”(Agentic Reasoning)的概念框架。他认为,下一代 AI 应用不再是简单的问答模式,而是由多个模型协同完成的复杂推理任务。一个典型的智能体工作流可能需要调用 5 到 10 次模型推理,涉及规划、工具调用、自我纠错等多个步骤。Vera 架构的推理调度器正是为此设计的——它能够在芯片级别对多个推理请求进行优先级排序和资源分配,将端到端延迟降低 40% 以上。黄仁勋以自动驾驶场景为例:一个 L4 级别的自动驾驶系统每秒需要执行超过 200 次独立推理,Vera 的推理吞吐量可达 4500 TOPS,恰好满足这一需求。摩根士丹利的分析报告指出,NVIDIA 的推理芯片业务在 2027 年有望贡献公司收入的 55%,首次超过训练芯片。

价值评估:推理专用架构才是 AI 硬件下半场的胜负手

过去三年,NVIDIA 的成功建立在”训练 GPU”的垄断地位上。但随着 GPT-4、Claude 3 等超大模型进入部署阶段,市场对推理芯片的需求正在以惊人的速度追赶训练芯片。黄仁勋在 Computex 上展示的 Vera 架构,意味着 NVIDIA 正式承认了这一趋势,并主动调整产品路线。AMD 的 MI400 系列和 Intel 的 Falcon Shores 也在推理性能上发力,但 NVIDIA 凭借 CUDA 环境和 TensorRT-LLM 的软件栈护城河,仍然保持着明显优势。据 MLPerf Inference 4.1 的测试结果,Vera B200 在主流 LLM 推理基准上的表现领先 AMD MI400 约 35%。

对于 AI 应用开发者来说,Vera 架构的发布意味着推理成本的进一步下降。以运行一个中等规模的客服智能体为例,在 H100 上每月需要约 1.2 万美元的算力成本,在 B200 上降至 6500 美元,而 Vera B200 有望进一步压缩到 3500 美元以内。成本的持续降低将催生更多”推理密集型”应用——那些过去因为算力太贵而无法落地的场景(如实时视频分析、多轮对话智能体、个性化推荐引擎),现在都变得经济可行。黄仁勋在演讲结尾说的一句话值得所有从业者思考:”训练是 AI 的童年,推理才是 AI 的成年。”NVIDIA 用 Vera 架构宣告了一个新时代的开始。


参考:https://m.okjike.com/originalPosts/6a1d268ec2dc8bf83f82366d