把每个 token 的 KV 缓存压缩 92.7%,视频生成就不再吃显存了
自回归视频扩散模型生成长视频时,KV 缓存的显存占用是最大的瓶颈之一。以 Wan-1.3B 模型为例,21 帧滑动窗口的密集 KV 缓存就高达 6.0GB(bf16),这是因为每个缓存的 token 每层要存储 3072 个标量。Virginia Tech 与 fal 团队提出的 VideoMLA 把这个数字从 3072 降到了 224——per-token KV 内存减少 92.7%。
核心做法来自 DeepSeek 的多头潜注意力(MLA)思路,但首次用于视频扩散。VideoMLA 用共享低秩潜变量替代每个注意力头的独立 Key/Value,位置信息则通过一个头共享的解耦 3D-RoPE 键来承载。在 VBench 基准上,VideoMLA 短视频持平基线,长视频取得所有参评方法中的最佳总分,在单张 B200 上吞吐量提升 1.23 倍。
预训练注意力不是低秩的,但 MLA 瓶颈本身就能适配
论文作者 Hidir Yesiltepe 和 Pinar Yanardag 等人发现了一个有趣的悖论:Wan-1.3B 视频注意力的 99% 能量有效秩远高于任何实际的潜变量维度——也就是说,视频注意力本质上是”不低秩”的。直接用谱近似应该会导致巨大重建误差。但 VideoMLA 在高压缩比下仍保持画质,原因是 MLA 的瓶颈本身决定了有效秩:无论用 SVD 初始化还是随机初始化,训练后的组合算子都几乎占满了设定的秩预算。设计问题的核心从”预训练权重本征秩是多少”变成了”多大的潜变量预算能保住视频质量”。
参考: