RoPeSLR 把视频扩散注意力砍半 5 秒 720p 加速 2.2 倍

RoPeSLR 把视频扩散里的 attention 砍了一半

5 月 22 日上线 arXiv 2605.20659 的 RoPeSLR，是一篇专门解决视频生成推理瓶颈的架构论文。作者来自南洋理工和上海 AI Lab 联合团队，第一作者 Wang Yiqing。论文标题《Rotary Position-aware Sparse Low-Rank Attention for Video Diffusion》给了核心动作——把 RoPE（旋转位置编码）和 SLR（稀疏低秩矩阵）拼起来，替代视频扩散模型里最重的 spatio-temporal attention 模块。最终在 Sora-style 5 秒 720p 视频生成上跑出 2.2× 推理加速，端到端质量（FVD）只掉 0.6 个点。

RoPeSLR 架构对比常规视频扩散注意力 — 左：常规 full attention，O(N²) 复杂度；右：RoPeSLR 用稀疏邻域 + 低秩全局，O(N√N)。

瓶颈到底在哪

视频扩散模型推理慢的根因不在采样步数，而在每一步要做的 attention。一段 5 秒 720p 视频在 latent 空间是约 32k token（120 帧 × 64×64 latent / patch size 4），每一步 self-attention 是 O(32k²) ≈ 10 亿次 dot product，跑完 50 步采样就是 500 亿次。FP16 下 H100 大约要 90 秒生成一段 5 秒视频——比生成时长本身还慢 18 倍。

过去的解法主要两类：sliding window attention（只看局部）和 linear attention（用核技巧把 softmax 近似成 O(N)）。前者损失全局一致性，画面会”忘”远处帧的内容；后者损失精度，FVD 普遍掉 5-8 个点。RoPeSLR 的设计正面回应这两条都不够好——既要保留全局，又要砍复杂度。

稀疏邻域加低秩远场，两路并行

RoPeSLR 把 attention 拆成两部分。第一部分是稀疏邻域：每个 token 只看 3D 时空窗口内的 27 个邻居（3×3×3），用 RoPE 编码相对位置，复杂度 O(N×27) = O(N)。第二部分是低秩远场：把全局的 K、V 压成秩 r=64 的两个矩阵 K_low、V_low，每个 token 都对这个低秩远场做 attention，复杂度 O(N×64) = O(N)。

两部分输出按学习到的 gate 加权融合：g·local + (1-g)·global。论文 Sec.3.4 显示 gate 在训练初期偏向 local（g≈0.78），到收敛后下移到 0.55，意味着模型自己学到”局部和全局五五分”。

低秩矩阵的来源很巧妙。研究者用 token 平均池化的金字塔——把 32k token 在每条空间维度上做 4× 池化得到 2k token，再做 4× 得到 128 token，把不同尺度的池化结果拼起来作为 K_low、V_low。这样既保留了多尺度信息，又把秩压到 64。

实测数据：FVD 掉 0.6，速度涨 2.2×

团队在两组基线上测——CogVideoX-5B 和自家训的 Sora-style 6B 模型。在 UCF-101 zero-shot 上，CogVideoX-5B 原版 FVD 132.4，换成 RoPeSLR 后 132.9，几乎打平。在 VBench 上五项指标平均掉 0.4 个点。生成速度从 90 秒/段降到 41 秒/段，2.2× 加速。

论文 Table 5 的细分数据透露了更多——加速来源里 60% 来自 attention 模块本身，30% 来自 KV cache 内存压缩（低秩矩阵只占原 KV 的 1/256），10% 来自 RoPE 让分块计算更简单。值得注意的是，作者也承认 RoPeSLR 在极长视频（30 秒以上）的优势会衰减——窗口外的远场要靠低秩近似，远场越占比，质量损失越明显。

对 video diffusion 工程化的现实意义

视频生成模型的商业化卡点一直是”算力打不平”。Sora、Veo、Kling 这些模型给出的是亚分钟生成时延，对消费级 PC 用户基本不可用。RoPeSLR 这类 attention 工程优化看似”小修小补”，但只要再叠 2-3 倍，把 5 秒视频的生成时延从 90 秒压到 10 秒以内，就跨过”实时预览”的门槛。这是消费产品（剪辑工具内置生成）能不能用起来的分水岭。

另一个角度——架构论文的卷度反映赛道成熟度。语言模型扩散把 attention 改完一轮（Mamba、RWKV、SSM 几条路线），现在视频扩散也开始有同类工作。从工业界观察，RoPeSLR 这种”局部稠密 + 全局低秩”的拼法不是首创——Longformer、BigBird 在长文本时代就跑过类似设计；这次把它搬到视频时空 token，关键是数据上的验证够扎实，而不是发明新机制。

论文也明确给出训练成本数据——把 CogVideoX-5B 替换 attention 模块再继续训练 200k step（约 5 天 32×H100），就能恢复到原模型的 FVD。换句话说，工业界要应用这套技术，不需要从头训，做后训练适配即可。这点对模型供应商的吸引力比对发论文的研究员更大。

下一波视频模型的护城河会从规模转到效率

过去两年视频生成的迭代节奏是”参数从 1B 涨到 30B”，主要靠堆参数、堆数据。今年开始，效率类工作（attention 重写、distillation、cache reuse）逐步成为论文主流。RoPeSLR 的 2.2× 加速放在 5 月这个时点不算最快——MovieGen 团队 4 月给出的 cache reuse 方法也是 2× 量级，但 RoPeSLR 的优势是改动更小、迁移成本更低。

未来 6 个月这块会出现一个明确分化：保留 full attention 的厂商（OpenAI Sora、Google Veo）继续靠算力堆体验，主攻 B 端高质量内容；用稀疏化路线的厂商（可灵、即梦、混元）会优先跑实时预览，主攻 C 端短视频创作。RoPeSLR 这类工作的意义不是某个具体数字，而是把第二条路线的技术天花板再抬一格。

参考链接：

RoPeSLR: Rotary Position-aware Sparse Low-Rank Attention for Video Diffusion – arXiv 2605.20659

RoPeSLR 架构降服视频生成瓶颈