学者研发AI正则化器,防止表征崩溃同时缩减模型体积25倍

AI资讯

用几何正则化替代高斯假设,表征不崩了

联合嵌入预测架构(JEPA)的核心难题之一是表征崩溃——编码器输出坍缩到低维子空间,丧失信息表达能力。之前的 LeJEPA 用”草绘各向同性高斯正则化”(SIGReg)来缓解这个问题,但 SIGReg 假设嵌入服从各向同性高斯分布,这与流形假设(数据集中在低维流形上)相矛盾。

UR-JEPA正则化器效果对比
UR-JEPA 与 LeJEPA 的 PCA 频谱对比:前者在第 20-25 维处出现 4-5 个数量级的骤降

研究者 Triet M. Le 提出了 UR-JEPA,转而以”一致 n-可整测度”为目标,通过高斯核平滑的 Carleson 型平方函数(L^CGLT)来实现正则化。在 Inet10 数据集上,UR-JEPA 达到 91.41% 准确率,比 LeJEPA 提升 0.83 个百分点,种子间标准差降低约 30%。EuroSAT 实验中,UR-JEPA 用一个 25 倍更小的骨干网络就达到了 96.1% 的精度,与专用遥感基础模型持平。

频谱结构决定表征质量,而非高斯分布

一个关键发现:UR-JEPA 投影器输出的 PCA 频谱在第 20-25 维(总维度 D=32)处出现 4-5 个数量级的断崖式下降,而 LeJEPA 的频谱几乎平坦(最大比值仅 3.6)。两种方法各维度的边缘分布都接近高斯(Shapiro-Wilk W 在 0.992-0.996 之间),但在精度相当时却产生了结构截然不同的表征。这说明”看起来像高斯”不等于”学到了好表征”——频谱的集中度才是区分正则化质量的关键指标。


参考: