高效视频生成算法 TAPE 发布

AI资讯
高效视频生成算法 TAPE 发布

视频扩散模型最难啃的一块成本,从来不是显存,而是注意力。Sheng Li、Sui Yang 等六位作者在 5 月 18 日提交的 arXiv 2605.17837 论文里给出了一个不用重训练的方案:TAPE,时间感知 token 剪枝。框架直接挂在已有的 ViT 视频扩散模型上,按时间维度统一 token 重要度,把 attention 计算量压下来,画质不掉。

这条研究的发表节奏很贴当下:5 月这一波视频生成开源潮里,模型尺寸越做越大,但单条十秒视频的推理时间也水涨船高。TAPE 的目标就是把那 30%-50% 的冗余 token 在生成过程中精确剔掉。

注意力剪枝在视频里为什么过去会翻车

论文里把过去 ViT/VLM 通用的剪枝策略拉过来跑,结果不好看。原因写得很直白:以往方法基本都是”per frame”的,单帧内重要的 token 不一定在下一帧依然重要,于是相邻帧的 token 选择会跳变,肉眼看就是闪烁、背景不一致、画面整体糊掉。

这其实暴露了视频生成和图像生成的根本差异。图像 ViT 只关心一帧的语义中心,视频生成必须保证 token 选择在时间轴上是平滑的,否则前后帧之间会被剪枝引入新的高频噪声,比扩散噪声本身还难处理。

三件小事撑起一套训练免费方案

TAPE 把改动收敛到三个动作。第一步是时间平滑:把相邻帧的 token 重要度做对齐,压住选择抖动。第二步是分层重选:在选定的几个层里重新挑 token,避免错误在某一空间位置上累积。第三步是按时间步动态调整剪枝预算——扩散早期噪声大就剪得狠,扩散后期是细节修复阶段就放松。

整个流程不动权重,不需要新数据,挂上去就能跑。这一点对于已经把模型部署到生产线的团队很关键,意味着不用排队等下一代模型 release,就能直接在现有 pipeline 上拿到加速。

训练免费的剪枝才是这波视频降本的可行路线

这两年视频扩散提速的论文一抓一把,但绝大多数要么改架构要么蒸馏,工程成本极高。TAPE 把”不动模型权重”作为硬约束,相当于把降本的工作量从研究侧推回到推理侧——这恰恰是大多数应用团队真正能掌控的环节。

论文的实验部分给出”显著加速、画质优于先前 token reduction 方法”的结论,但更值得注意的是这种方案的可叠加性:未来再换更大的视频扩散底模,TAPE 这层剪枝逻辑大概率仍然能直接套上去。把推理优化做成模型无关的中间件,比每次跟着新模型重新写一遍优化代码靠谱得多。


参考资料: