英伟达直播扩散语言模型与弹性推理：单步并行 16 token

英伟达在 X Broadcasts 上做了一场公开技术分享，主题是扩散语言模型（diffusion LLM）和弹性推理（elastic inference）。英伟达最新前沿这场直播由英伟达加速计算应用研究负责人 Bryan Catanzaro 主讲，核心是把图像扩散里成熟的并行去噪思路搬进文本生成，让一次前向能同时输出多个 token，而不是 autoregressive 逐字往后加。

扩散语言模型每一步并行解码 8 到 16 个 token，整段文本通过 20 余步迭代逐步收敛
在 8B 参数级别的内部模型上，端到端延迟比同尺寸 autoregressive 模型降低约 3 倍
弹性推理允许同一份权重根据负载动态调整迭代步数：低延迟场景跑 12 步、高质量场景跑 32 步
共享底层的 KV cache 与 CUDA Graph，硬件利用率从 autoregressive 的约 30% 拉到 70% 以上

真正的影响在推理成本，而不是模型质量

autoregressive 解码这两年被反复优化——speculative decoding、Medusa、Eagle 都是绕着「逐字生成」打补丁。扩散语言模型走的是另一条路：直接放弃顺序约束，用迭代去噪取代单次顺序展开。Catanzaro 在直播里说得很直接：「逐字解码是 GPT-2 时代留下的工程惯性，不是物理定律。如果我们要让 LLM 跑在每秒数千 query 的客服场景里，必须把这个假设拆掉。」如果这条路走通，把企业级推理成本压下去的杠杆比再做一次模型蒸馏要大。学界这边 Stanford 的 SEDD 与 Carnegie Mellon 的 Diffusion-LM 在 2023 到 2024 年已铺好理论底，工业界把它做成产品级管线英伟达是首批之一。

英伟达扩散语言模型与弹性推理直播 — 英伟达公开扩散语言模型与弹性推理方案，把图像扩散思路搬进文本生成。

需要观察的是质量曲线和上下文窗口

扩散文本模型一直有两个老问题：长上下文里对位置的精确依赖比较弱、复杂推理任务（数学、代码）质量曲线在迭代步数上还没充分饱和。英伟达这次没有放出 GSM8K、HumanEval 之类的硬指标，只给了延迟和吞吐数字——这正是值得盯住的地方。如果质量在弹性的 12 到 32 步区间能稳定拿到 autoregressive 的 95% 以上，企业部署会很快开始迁移；如果代码生成这种强结构任务上掉点严重，那这套方案近期还是只能跑客服、摘要、检索增强这类对精确推理要求不高的场景。

参考链接

英伟达最新前沿

英伟达公布扩散模型与弹性推理黑科技

真正的影响在推理成本，而不是模型质量

需要观察的是质量曲线和上下文窗口

相关推荐