AI正则化器防表征崩溃模型体积缩减25倍

用几何正则化替代高斯假设，表征不崩了

联合嵌入预测架构（JEPA）的核心难题之一是表征崩溃——编码器输出坍缩到低维子空间，丧失信息表达能力。之前的 LeJEPA 用”草绘各向同性高斯正则化”（SIGReg）来缓解这个问题，但 SIGReg 假设嵌入服从各向同性高斯分布，这与流形假设（数据集中在低维流形上）相矛盾。

UR-JEPA正则化器效果对比 — UR-JEPA 与 LeJEPA 的 PCA 频谱对比：前者在第 20-25 维处出现 4-5 个数量级的骤降

研究者 Triet M. Le 提出了 UR-JEPA，转而以”一致 n-可整测度”为目标，通过高斯核平滑的 Carleson 型平方函数（L^CGLT）来实现正则化。在 Inet10 数据集上，UR-JEPA 达到 91.41% 准确率，比 LeJEPA 提升 0.83 个百分点，种子间标准差降低约 30%。EuroSAT 实验中，UR-JEPA 用一个 25 倍更小的骨干网络就达到了 96.1% 的精度，与专用遥感基础模型持平。

频谱结构决定表征质量，而非高斯分布

一个关键发现：UR-JEPA 投影器输出的 PCA 频谱在第 20-25 维（总维度 D=32）处出现 4-5 个数量级的断崖式下降，而 LeJEPA 的频谱几乎平坦（最大比值仅 3.6）。两种方法各维度的边缘分布都接近高斯（Shapiro-Wilk W 在 0.992-0.996 之间），但在精度相当时却产生了结构截然不同的表征。这说明”看起来像高斯”不等于”学到了好表征”——频谱的集中度才是区分正则化质量的关键指标。

参考：

UR-JEPA: Uniformly Rectifiable Regularization for Joint-Embedding Predictive Architectures

学者研发AI正则化器，防止表征崩溃同时缩减模型体积25倍

用几何正则化替代高斯假设，表征不崩了

频谱结构决定表征质量，而非高斯分布

相关推荐