谢赛宁团队 RAEv2 表征自编码器训练提速 10 倍

RAEv2 把表征自编码器拉到能用

谢赛宁团队 5 月 22 日在 arXiv 挂出 RAEv2，论文编号 2605.18324v1。这是 Representation Autoencoder（表征自编码器）系列的第二代——目标是把同一套 latent 同时拿来跑判别（识别、检索）和生成（图像、视频）。第一代 RAE 在 2025 年初曾引发社区关注但被批”训练不稳”；这版直接把 ImageNet-1K 256×256 上的扩散训练时间从基线 DiT-XL 的 7 天压到不到 16 小时，速度提升约 10×。

RAEv2 表征自编码器架构示意 — RAEv2 用一个共享 encoder 同时给判别 head 和生成 head 供 latent。

它究竟换了什么

过去主流路线是把判别和生成的表征分开训。MAE、DINO、SigLIP 这一脉做判别 latent，VAE、SD-VAE 这一脉做生成 latent。两套 latent 维度不同、分布不同、scaling 行为不同，模型间的互通要靠适配层。这导致一个尴尬现象——同一张图，识别它用的特征和生成它用的特征不共享，训练成本翻倍。

RAEv2 的核心改动是把 encoder 换成一个 hierarchical bottleneck：四级降采样后输出 32×32×16 的 latent，但每一级的中间 feature map 都通过线性 projection 拼到最终 latent 上。这样判别任务用浅层特征+深层特征的组合，生成任务用深层 latent 单独 decode。论文 Table 3 的消融显示，单纯删掉浅层拼接，ImageNet linear probing top-1 从 81.2% 掉到 73.4%；保留拼接但解码时无视浅层，FID 从 2.07 升到 2.11——几乎不影响生成质量。

第二个改动是把训练目标从 reconstruction loss + KL 改成三项联合：MSE 重建损失、对比学习损失（InfoNCE，温度 0.07）、和 latent 上的 SigLIP 蒸馏损失。其中蒸馏损失是关键——直接让 RAEv2 的 latent 和 SigLIP-SO400M 的 latent 对齐，相当于把现成的判别能力”借”过来，省掉从零训判别 head 的成本。

训练成本数据：10× 来自哪里

论文 Sec.4.2 给的对比基线是 DiT-XL/2，在 256×256 ImageNet 上跑到 FID 2.27 需要 7B token 训练量、约 7 天 8×H100。RAEv2-XL 拿到 FID 2.07 只用了 700M token、15.6 小时 8×H100。压缩主要来自三块：

latent 维度更紧：DiT-XL 用 SD-VAE 的 32×32×4 latent，RAEv2 用 32×32×16 但语义密度高，扩散模型在更紧 latent 上的收敛步数下降约 40%。
蒸馏热启动：SigLIP 蒸馏让 encoder 在第 1 个 epoch 就有可用的语义结构，扩散端的 schedule 可以直接跳过 warmup。
noise schedule 改写：作者从 EDM 改成自定义的 cosine-shifted schedule，把高 SNR 段的步数压掉一半。

验证集上的可比指标——ImageNet 256×256 FID 2.07（DiT-XL/2 是 2.27）、CIFAR-10 FID 1.82（旧基线 1.97）、COCO-Captions T2I 在 4B 参数版本上 CLIP-T 0.314。这套数对论文的”统一表征”主张构成硬证据：判别端的 ImageNet linear probing 跑到 81.2%，已经接近 DINOv2-L 的 84.5%，不是 toy demo。

跨模态扩展：视频和 3D 也在跑

论文 Sec.5 把同一套架构扩到视频和 3D。视频版 RAEv2-V 在 Kinetics-400 上做 Action Classification top-1 78.4%，同时在 UCF-101 unconditional video generation 上 FVD 134（VideoMAE 是 132，VideoLDM 是 295）。3D 版用同样的 hierarchical bottleneck 在 Objaverse 上做 Multi-view consistency，CLIP-T 拿到 0.281。这意味着团队主张的”表征自编码器”不止跑图像，跨模态都在收敛。

谢赛宁本人在 X 上的回应也直接：他贴出训练曲线时写”DiT 时代 latent 是黑盒，RAE 时代我们想看清楚 latent 在干什么”。这句话点中了很多研究者的痛——SD-VAE 的 latent 缺乏可解释性，导致一旦模型出问题，只能在扩散端调，没法在 latent 端定位。RAEv2 的判别能力让 latent 可探测——你可以拿 linear probing 测每一维代表什么概念，再回头改训练。

表征统一比生成快十倍更值得跟进

10× 训练加速听起来吸睛，但研究价值更大的是”判别和生成共享一套 latent 还能各打 SOTA”这件事被走通。过去三年视觉 SSL（self-supervised learning）和扩散模型几乎是两个不交往的社群，前者关心 linear probing、knn、segmentation，后者关心 FID、CLIP-T、采样步数。RAEv2 把两边的考核都端上来同时刷脸。

对工业界的影响在哪？训一个万亿规模的多模态基础模型，过去要分别准备视觉编码器（SigLIP）、文本编码器（T5）、扩散 prior（SD-VAE）。RAEv2 的思路是让视觉编码器从一开始就同时承担生成职责，整套训练栈可以省掉适配层。如果接下来字节、阿里、Meta 的多模态团队跟进这条路线，下一代 GPT-4V 类模型的训练成本可能再降一个数量级。

当然这是 v1，社区会继续抠细节。一个明显的问号——蒸馏来的判别能力会不会在 fine-tune 后塌缩？论文给了 frozen encoder 的判别成绩，但没给 full fine-tune 的对比。另一个问号是 32×32×16 的 latent 在更高分辨率（1024×1024 以上）的扩展性，目前论文只跑到 512×512。这两个问题大概率会在 v2、v3 的论文里被回答。

参考链接：

RAEv2: Unified Representation Autoencoder for Discrimination and Generation – arXiv 2605.18324v1

谢赛宁团队发布 RAEv2 自编码器

RAEv2 把表征自编码器拉到能用

它究竟换了什么

训练成本数据：10× 来自哪里

跨模态扩展：视频和 3D 也在跑

表征统一比生成快十倍更值得跟进

相关推荐