大模型尺度向量研究获重要突破

AI资讯

在大模型的归一化层中,有一组参数长期被忽视——缩放向量(scale vectors)。它们在参数总量中占比极小,却对训练动态有不成比例的影响。Mingze Wang 等研究者在最新论文中对这一现象进行了系统性分析,揭示了缩放向量在 Pre-Norm 架构中的真实角色。

缩放向量的参数占比微乎其微,但移除它训练就崩溃

在标准的 LayerNorm 或 RMSNorm 中,可学习参数只有两个:缩放(scale/gamma)和偏移(shift/beta)。其中缩放向量在每个层的参数量等于隐藏维度,占总参数量的比例不到 0.1%。Wang 等人发现,在 Pre-Norm 架构中(即归一化在注意力或前馈层之前),如果将缩放向量固定为全 1 向量(即移除其学习能力),训练过程会出现严重的梯度不稳定,最终损失值显著偏高。这与直觉相悖——一个占比不到千分之一的参数组,为什么会有如此大的影响?

缩放向量不是在增强表达力,而是在修复优化路径

论文的核心发现是:缩放向量的主要作用不是增强模型的表达能力,而是改善优化过程。Wang 等人将这种机制命名为 “self-amplified preconditioning”(自放大预条件)。具体来说,在 Pre-Norm 架构中,缩放向量通过对每层的输出进行逐维度的缩放,间接调整了后续层的梯度条件数(condition number)。这种调整是自适应的——随着训练进行,缩放向量会朝有利于优化的方向演化。移除缩放向量后,梯度传播的有效条件数恶化,导致优化路径变长甚至卡在鞍点附近。

缩放向量在不同架构中的作用差异
Pre-Norm 中 Input-Norm 层与 Output-Norm 层的缩放向量表现出截然不同的行为模式

Input-Norm 和 Output-Norm 的缩放向量扮演着不同角色

论文的另一项重要区分是将归一化层分为两类:Input-Norm(归一化后直接进入注意力或前馈计算)和Output-Norm(归一化后作为残差连接的一部分)。实验表明,Input-Norm 层的缩放向量对训练稳定性至关重要,而 Output-Norm 层的缩放向量影响相对温和。这一区分有直接的工程意义:在模型压缩或量化时,Input-Norm 的缩放向量需要更高精度的表示,而 Output-Norm 的缩放向量可以在更低精度下工作而不显著影响性能。

理解缩放向量的真实机制比盲目堆参数更重要

Wang 等人基于上述发现提出了三种轻量级改进方案,在 0.12B 到 2B 参数规模的密集模型和 MoE 模型上进行了验证,均取得了稳定提升。这些改进的成本极低——只涉及缩放向量的初始化策略和参数化方式,不改变模型结构。这项工作的深层价值在于:它提醒我们,大模型的性能瓶颈并不总是出在”参数不够多”上。很多时候,现有的参数没有被正确使用。缩放向量就是一个典型案例——它一直存在,被默认包含在每个模型中,但其工作机制直到现在才被系统性地理解。对于模型架构设计者来说,这种对基础组件的深入剖析,比堆叠更多层或增加隐藏维度更有指导意义。


参考链接