英伟达公布扩散模型与弹性推理黑科技

AI资讯

英伟达在 X Broadcasts 上做了一场公开技术分享,主题是扩散语言模型(diffusion LLM)和弹性推理(elastic inference)。英伟达最新前沿这场直播由英伟达加速计算应用研究负责人 Bryan Catanzaro 主讲,核心是把图像扩散里成熟的并行去噪思路搬进文本生成,让一次前向能同时输出多个 token,而不是 autoregressive 逐字往后加。

  • 扩散语言模型每一步并行解码 8 到 16 个 token,整段文本通过 20 余步迭代逐步收敛
  • 在 8B 参数级别的内部模型上,端到端延迟比同尺寸 autoregressive 模型降低约 3 倍
  • 弹性推理允许同一份权重根据负载动态调整迭代步数:低延迟场景跑 12 步、高质量场景跑 32 步
  • 共享底层的 KV cache 与 CUDA Graph,硬件利用率从 autoregressive 的约 30% 拉到 70% 以上

真正的影响在推理成本,而不是模型质量

autoregressive 解码这两年被反复优化——speculative decoding、Medusa、Eagle 都是绕着「逐字生成」打补丁。扩散语言模型走的是另一条路:直接放弃顺序约束,用迭代去噪取代单次顺序展开。Catanzaro 在直播里说得很直接:「逐字解码是 GPT-2 时代留下的工程惯性,不是物理定律。如果我们要让 LLM 跑在每秒数千 query 的客服场景里,必须把这个假设拆掉。」如果这条路走通,把企业级推理成本压下去的杠杆比再做一次模型蒸馏要大。学界这边 Stanford 的 SEDD 与 Carnegie Mellon 的 Diffusion-LM 在 2023 到 2024 年已铺好理论底,工业界把它做成产品级管线英伟达是首批之一。

英伟达扩散语言模型与弹性推理直播
英伟达公开扩散语言模型与弹性推理方案,把图像扩散思路搬进文本生成。

需要观察的是质量曲线和上下文窗口

扩散文本模型一直有两个老问题:长上下文里对位置的精确依赖比较弱、复杂推理任务(数学、代码)质量曲线在迭代步数上还没充分饱和。英伟达这次没有放出 GSM8K、HumanEval 之类的硬指标,只给了延迟和吞吐数字——这正是值得盯住的地方。如果质量在弹性的 12 到 32 步区间能稳定拿到 autoregressive 的 95% 以上,企业部署会很快开始迁移;如果代码生成这种强结构任务上掉点严重,那这套方案近期还是只能跑客服、摘要、检索增强这类对精确推理要求不高的场景。


参考链接