RoPeSLR 架构降服视频生成瓶颈

AI资讯

RoPeSLR 把视频扩散里的 attention 砍了一半

5 月 22 日上线 arXiv 2605.20659 的 RoPeSLR,是一篇专门解决视频生成推理瓶颈的架构论文。作者来自南洋理工和上海 AI Lab 联合团队,第一作者 Wang Yiqing。论文标题《Rotary Position-aware Sparse Low-Rank Attention for Video Diffusion》给了核心动作——把 RoPE(旋转位置编码)和 SLR(稀疏低秩矩阵)拼起来,替代视频扩散模型里最重的 spatio-temporal attention 模块。最终在 Sora-style 5 秒 720p 视频生成上跑出 2.2× 推理加速,端到端质量(FVD)只掉 0.6 个点。

RoPeSLR 架构对比常规视频扩散注意力
左:常规 full attention,O(N²) 复杂度;右:RoPeSLR 用稀疏邻域 + 低秩全局,O(N√N)。

瓶颈到底在哪

视频扩散模型推理慢的根因不在采样步数,而在每一步要做的 attention。一段 5 秒 720p 视频在 latent 空间是约 32k token(120 帧 × 64×64 latent / patch size 4),每一步 self-attention 是 O(32k²) ≈ 10 亿次 dot product,跑完 50 步采样就是 500 亿次。FP16 下 H100 大约要 90 秒生成一段 5 秒视频——比生成时长本身还慢 18 倍。

过去的解法主要两类:sliding window attention(只看局部)和 linear attention(用核技巧把 softmax 近似成 O(N))。前者损失全局一致性,画面会”忘”远处帧的内容;后者损失精度,FVD 普遍掉 5-8 个点。RoPeSLR 的设计正面回应这两条都不够好——既要保留全局,又要砍复杂度。

稀疏邻域加低秩远场,两路并行

RoPeSLR 把 attention 拆成两部分。第一部分是稀疏邻域:每个 token 只看 3D 时空窗口内的 27 个邻居(3×3×3),用 RoPE 编码相对位置,复杂度 O(N×27) = O(N)。第二部分是低秩远场:把全局的 K、V 压成秩 r=64 的两个矩阵 K_low、V_low,每个 token 都对这个低秩远场做 attention,复杂度 O(N×64) = O(N)。

两部分输出按学习到的 gate 加权融合:g·local + (1-g)·global。论文 Sec.3.4 显示 gate 在训练初期偏向 local(g≈0.78),到收敛后下移到 0.55,意味着模型自己学到”局部和全局五五分”。

低秩矩阵的来源很巧妙。研究者用 token 平均池化的金字塔——把 32k token 在每条空间维度上做 4× 池化得到 2k token,再做 4× 得到 128 token,把不同尺度的池化结果拼起来作为 K_low、V_low。这样既保留了多尺度信息,又把秩压到 64。

实测数据:FVD 掉 0.6,速度涨 2.2×

团队在两组基线上测——CogVideoX-5B 和自家训的 Sora-style 6B 模型。在 UCF-101 zero-shot 上,CogVideoX-5B 原版 FVD 132.4,换成 RoPeSLR 后 132.9,几乎打平。在 VBench 上五项指标平均掉 0.4 个点。生成速度从 90 秒/段降到 41 秒/段,2.2× 加速。

论文 Table 5 的细分数据透露了更多——加速来源里 60% 来自 attention 模块本身,30% 来自 KV cache 内存压缩(低秩矩阵只占原 KV 的 1/256),10% 来自 RoPE 让分块计算更简单。值得注意的是,作者也承认 RoPeSLR 在极长视频(30 秒以上)的优势会衰减——窗口外的远场要靠低秩近似,远场越占比,质量损失越明显。

对 video diffusion 工程化的现实意义

视频生成模型的商业化卡点一直是”算力打不平”。Sora、Veo、Kling 这些模型给出的是亚分钟生成时延,对消费级 PC 用户基本不可用。RoPeSLR 这类 attention 工程优化看似”小修小补”,但只要再叠 2-3 倍,把 5 秒视频的生成时延从 90 秒压到 10 秒以内,就跨过”实时预览”的门槛。这是消费产品(剪辑工具内置生成)能不能用起来的分水岭。

另一个角度——架构论文的卷度反映赛道成熟度。语言模型扩散把 attention 改完一轮(Mamba、RWKV、SSM 几条路线),现在视频扩散也开始有同类工作。从工业界观察,RoPeSLR 这种”局部稠密 + 全局低秩”的拼法不是首创——Longformer、BigBird 在长文本时代就跑过类似设计;这次把它搬到视频时空 token,关键是数据上的验证够扎实,而不是发明新机制。

论文也明确给出训练成本数据——把 CogVideoX-5B 替换 attention 模块再继续训练 200k step(约 5 天 32×H100),就能恢复到原模型的 FVD。换句话说,工业界要应用这套技术,不需要从头训,做后训练适配即可。这点对模型供应商的吸引力比对发论文的研究员更大。

下一波视频模型的护城河会从规模转到效率

过去两年视频生成的迭代节奏是”参数从 1B 涨到 30B”,主要靠堆参数、堆数据。今年开始,效率类工作(attention 重写、distillation、cache reuse)逐步成为论文主流。RoPeSLR 的 2.2× 加速放在 5 月这个时点不算最快——MovieGen 团队 4 月给出的 cache reuse 方法也是 2× 量级,但 RoPeSLR 的优势是改动更小、迁移成本更低。

未来 6 个月这块会出现一个明确分化:保留 full attention 的厂商(OpenAI Sora、Google Veo)继续靠算力堆体验,主攻 B 端高质量内容;用稀疏化路线的厂商(可灵、即梦、混元)会优先跑实时预览,主攻 C 端短视频创作。RoPeSLR 这类工作的意义不是某个具体数字,而是把第二条路线的技术天花板再抬一格。


参考链接: