视频生成新框架低秩潜变量压缩释放九成显存

把每个 token 的 KV 缓存压缩 92.7%，视频生成就不再吃显存了

自回归视频扩散模型生成长视频时，KV 缓存的显存占用是最大的瓶颈之一。以 Wan-1.3B 模型为例，21 帧滑动窗口的密集 KV 缓存就高达 6.0GB（bf16），这是因为每个缓存的 token 每层要存储 3072 个标量。Virginia Tech 与 fal 团队提出的 VideoMLA 把这个数字从 3072 降到了 224——per-token KV 内存减少 92.7%。

VideoMLA架构示意图 — VideoMLA 用共享低秩内容潜变量替代逐头 KV，再用解耦 3D-RoPE 携带位置信息

核心做法来自 DeepSeek 的多头潜注意力（MLA）思路，但首次用于视频扩散。VideoMLA 用共享低秩潜变量替代每个注意力头的独立 Key/Value，位置信息则通过一个头共享的解耦 3D-RoPE 键来承载。在 VBench 基准上，VideoMLA 短视频持平基线，长视频取得所有参评方法中的最佳总分，在单张 B200 上吞吐量提升 1.23 倍。

预训练注意力不是低秩的，但 MLA 瓶颈本身就能适配

论文作者 Hidir Yesiltepe 和 Pinar Yanardag 等人发现了一个有趣的悖论：Wan-1.3B 视频注意力的 99% 能量有效秩远高于任何实际的潜变量维度——也就是说，视频注意力本质上是”不低秩”的。直接用谱近似应该会导致巨大重建误差。但 VideoMLA 在高压缩比下仍保持画质，原因是 MLA 的瓶颈本身决定了有效秩：无论用 SVD 初始化还是随机初始化，训练后的组合算子都几乎占满了设定的秩预算。设计问题的核心从”预训练权重本征秩是多少”变成了”多大的潜变量预算能保住视频质量”。

参考：

VideoMLA: Low-Rank Latent KV Cache for Minute-Scale Autoregressive Video Diffusion

视频生成新框架：低秩潜变量压缩释放九成显存

把每个 token 的 KV 缓存压缩 92.7%，视频生成就不再吃显存了

预训练注意力不是低秩的，但 MLA 瓶颈本身就能适配

相关推荐