TAPE 训练免费剪枝给视频扩散模型加速

视频扩散模型最难啃的一块成本，从来不是显存，而是注意力。Sheng Li、Sui Yang 等六位作者在 5 月 18 日提交的 arXiv 2605.17837 论文里给出了一个不用重训练的方案：TAPE，时间感知 token 剪枝。框架直接挂在已有的 ViT 视频扩散模型上，按时间维度统一 token 重要度，把 attention 计算量压下来，画质不掉。

这条研究的发表节奏很贴当下：5 月这一波视频生成开源潮里，模型尺寸越做越大，但单条十秒视频的推理时间也水涨船高。TAPE 的目标就是把那 30%-50% 的冗余 token 在生成过程中精确剔掉。

注意力剪枝在视频里为什么过去会翻车

论文里把过去 ViT/VLM 通用的剪枝策略拉过来跑，结果不好看。原因写得很直白：以往方法基本都是”per frame”的，单帧内重要的 token 不一定在下一帧依然重要，于是相邻帧的 token 选择会跳变，肉眼看就是闪烁、背景不一致、画面整体糊掉。

这其实暴露了视频生成和图像生成的根本差异。图像 ViT 只关心一帧的语义中心，视频生成必须保证 token 选择在时间轴上是平滑的，否则前后帧之间会被剪枝引入新的高频噪声，比扩散噪声本身还难处理。

三件小事撑起一套训练免费方案

TAPE 把改动收敛到三个动作。第一步是时间平滑：把相邻帧的 token 重要度做对齐，压住选择抖动。第二步是分层重选：在选定的几个层里重新挑 token，避免错误在某一空间位置上累积。第三步是按时间步动态调整剪枝预算——扩散早期噪声大就剪得狠，扩散后期是细节修复阶段就放松。

整个流程不动权重，不需要新数据，挂上去就能跑。这一点对于已经把模型部署到生产线的团队很关键，意味着不用排队等下一代模型 release，就能直接在现有 pipeline 上拿到加速。

训练免费的剪枝才是这波视频降本的可行路线

这两年视频扩散提速的论文一抓一把，但绝大多数要么改架构要么蒸馏，工程成本极高。TAPE 把”不动模型权重”作为硬约束，相当于把降本的工作量从研究侧推回到推理侧——这恰恰是大多数应用团队真正能掌控的环节。

论文的实验部分给出”显著加速、画质优于先前 token reduction 方法”的结论，但更值得注意的是这种方案的可叠加性：未来再换更大的视频扩散底模，TAPE 这层剪枝逻辑大概率仍然能直接套上去。把推理优化做成模型无关的中间件，比每次跟着新模型重新写一遍优化代码靠谱得多。

参考资料：

Sheng Li 等，Temporal Aware Pruning for Efficient Diffusion-based Video Generation，arXiv:2605.17837，2026-05-18

高效视频生成算法 TAPE 发布

注意力剪枝在视频里为什么过去会翻车

三件小事撑起一套训练免费方案

训练免费的剪枝才是这波视频降本的可行路线

相关推荐