谢赛宁团队发布 RAEv2 自编码器

AI资讯

RAEv2 把表征自编码器拉到能用

谢赛宁团队 5 月 22 日在 arXiv 挂出 RAEv2,论文编号 2605.18324v1。这是 Representation Autoencoder(表征自编码器)系列的第二代——目标是把同一套 latent 同时拿来跑判别(识别、检索)和生成(图像、视频)。第一代 RAE 在 2025 年初曾引发社区关注但被批”训练不稳”;这版直接把 ImageNet-1K 256×256 上的扩散训练时间从基线 DiT-XL 的 7 天压到不到 16 小时,速度提升约 10×。

RAEv2 表征自编码器架构示意
RAEv2 用一个共享 encoder 同时给判别 head 和生成 head 供 latent。

它究竟换了什么

过去主流路线是把判别和生成的表征分开训。MAE、DINO、SigLIP 这一脉做判别 latent,VAE、SD-VAE 这一脉做生成 latent。两套 latent 维度不同、分布不同、scaling 行为不同,模型间的互通要靠适配层。这导致一个尴尬现象——同一张图,识别它用的特征和生成它用的特征不共享,训练成本翻倍。

RAEv2 的核心改动是把 encoder 换成一个 hierarchical bottleneck:四级降采样后输出 32×32×16 的 latent,但每一级的中间 feature map 都通过线性 projection 拼到最终 latent 上。这样判别任务用浅层特征+深层特征的组合,生成任务用深层 latent 单独 decode。论文 Table 3 的消融显示,单纯删掉浅层拼接,ImageNet linear probing top-1 从 81.2% 掉到 73.4%;保留拼接但解码时无视浅层,FID 从 2.07 升到 2.11——几乎不影响生成质量。

第二个改动是把训练目标从 reconstruction loss + KL 改成三项联合:MSE 重建损失、对比学习损失(InfoNCE,温度 0.07)、和 latent 上的 SigLIP 蒸馏损失。其中蒸馏损失是关键——直接让 RAEv2 的 latent 和 SigLIP-SO400M 的 latent 对齐,相当于把现成的判别能力”借”过来,省掉从零训判别 head 的成本。

训练成本数据:10× 来自哪里

论文 Sec.4.2 给的对比基线是 DiT-XL/2,在 256×256 ImageNet 上跑到 FID 2.27 需要 7B token 训练量、约 7 天 8×H100。RAEv2-XL 拿到 FID 2.07 只用了 700M token、15.6 小时 8×H100。压缩主要来自三块:

  • latent 维度更紧:DiT-XL 用 SD-VAE 的 32×32×4 latent,RAEv2 用 32×32×16 但语义密度高,扩散模型在更紧 latent 上的收敛步数下降约 40%。
  • 蒸馏热启动:SigLIP 蒸馏让 encoder 在第 1 个 epoch 就有可用的语义结构,扩散端的 schedule 可以直接跳过 warmup。
  • noise schedule 改写:作者从 EDM 改成自定义的 cosine-shifted schedule,把高 SNR 段的步数压掉一半。

验证集上的可比指标——ImageNet 256×256 FID 2.07(DiT-XL/2 是 2.27)、CIFAR-10 FID 1.82(旧基线 1.97)、COCO-Captions T2I 在 4B 参数版本上 CLIP-T 0.314。这套数对论文的”统一表征”主张构成硬证据:判别端的 ImageNet linear probing 跑到 81.2%,已经接近 DINOv2-L 的 84.5%,不是 toy demo。

跨模态扩展:视频和 3D 也在跑

论文 Sec.5 把同一套架构扩到视频和 3D。视频版 RAEv2-V 在 Kinetics-400 上做 Action Classification top-1 78.4%,同时在 UCF-101 unconditional video generation 上 FVD 134(VideoMAE 是 132,VideoLDM 是 295)。3D 版用同样的 hierarchical bottleneck 在 Objaverse 上做 Multi-view consistency,CLIP-T 拿到 0.281。这意味着团队主张的”表征自编码器”不止跑图像,跨模态都在收敛。

谢赛宁本人在 X 上的回应也直接:他贴出训练曲线时写”DiT 时代 latent 是黑盒,RAE 时代我们想看清楚 latent 在干什么”。这句话点中了很多研究者的痛——SD-VAE 的 latent 缺乏可解释性,导致一旦模型出问题,只能在扩散端调,没法在 latent 端定位。RAEv2 的判别能力让 latent 可探测——你可以拿 linear probing 测每一维代表什么概念,再回头改训练。

表征统一比生成快十倍更值得跟进

10× 训练加速听起来吸睛,但研究价值更大的是”判别和生成共享一套 latent 还能各打 SOTA”这件事被走通。过去三年视觉 SSL(self-supervised learning)和扩散模型几乎是两个不交往的社群,前者关心 linear probing、knn、segmentation,后者关心 FID、CLIP-T、采样步数。RAEv2 把两边的考核都端上来同时刷脸。

对工业界的影响在哪?训一个万亿规模的多模态基础模型,过去要分别准备视觉编码器(SigLIP)、文本编码器(T5)、扩散 prior(SD-VAE)。RAEv2 的思路是让视觉编码器从一开始就同时承担生成职责,整套训练栈可以省掉适配层。如果接下来字节、阿里、Meta 的多模态团队跟进这条路线,下一代 GPT-4V 类模型的训练成本可能再降一个数量级。

当然这是 v1,社区会继续抠细节。一个明显的问号——蒸馏来的判别能力会不会在 fine-tune 后塌缩?论文给了 frozen encoder 的判别成绩,但没给 full fine-tune 的对比。另一个问号是 32×32×16 的 latent 在更高分辨率(1024×1024 以上)的扩展性,目前论文只跑到 512×512。这两个问题大概率会在 v2、v3 的论文里被回答。


参考链接: