大模型缩放向量研究：小部件影响训练成败

在大模型的归一化层中，有一组参数长期被忽视——缩放向量（scale vectors）。它们在参数总量中占比极小，却对训练动态有不成比例的影响。Mingze Wang 等研究者在最新论文中对这一现象进行了系统性分析，揭示了缩放向量在 Pre-Norm 架构中的真实角色。

缩放向量的参数占比微乎其微，但移除它训练就崩溃

在标准的 LayerNorm 或 RMSNorm 中，可学习参数只有两个：缩放（scale/gamma）和偏移（shift/beta）。其中缩放向量在每个层的参数量等于隐藏维度，占总参数量的比例不到 0.1%。Wang 等人发现，在 Pre-Norm 架构中（即归一化在注意力或前馈层之前），如果将缩放向量固定为全 1 向量（即移除其学习能力），训练过程会出现严重的梯度不稳定，最终损失值显著偏高。这与直觉相悖——一个占比不到千分之一的参数组，为什么会有如此大的影响？

缩放向量不是在增强表达力，而是在修复优化路径

论文的核心发现是：缩放向量的主要作用不是增强模型的表达能力，而是改善优化过程。Wang 等人将这种机制命名为 “self-amplified preconditioning”（自放大预条件）。具体来说，在 Pre-Norm 架构中，缩放向量通过对每层的输出进行逐维度的缩放，间接调整了后续层的梯度条件数（condition number）。这种调整是自适应的——随着训练进行，缩放向量会朝有利于优化的方向演化。移除缩放向量后，梯度传播的有效条件数恶化，导致优化路径变长甚至卡在鞍点附近。

缩放向量在不同架构中的作用差异 — Pre-Norm 中 Input-Norm 层与 Output-Norm 层的缩放向量表现出截然不同的行为模式

Input-Norm 和 Output-Norm 的缩放向量扮演着不同角色

论文的另一项重要区分是将归一化层分为两类：Input-Norm（归一化后直接进入注意力或前馈计算）和Output-Norm（归一化后作为残差连接的一部分）。实验表明，Input-Norm 层的缩放向量对训练稳定性至关重要，而 Output-Norm 层的缩放向量影响相对温和。这一区分有直接的工程意义：在模型压缩或量化时，Input-Norm 的缩放向量需要更高精度的表示，而 Output-Norm 的缩放向量可以在更低精度下工作而不显著影响性能。

理解缩放向量的真实机制比盲目堆参数更重要

Wang 等人基于上述发现提出了三种轻量级改进方案，在 0.12B 到 2B 参数规模的密集模型和 MoE 模型上进行了验证，均取得了稳定提升。这些改进的成本极低——只涉及缩放向量的初始化策略和参数化方式，不改变模型结构。这项工作的深层价值在于：它提醒我们，大模型的性能瓶颈并不总是出在”参数不够多”上。很多时候，现有的参数没有被正确使用。缩放向量就是一个典型案例——它一直存在，被默认包含在每个模型中，但其工作机制直到现在才被系统性地理解。对于模型架构设计者来说，这种对基础组件的深入剖析，比堆叠更多层或增加隐藏维度更有指导意义。

参考链接

Scale Vectors in Normalization Layers of Large Language Models

大模型尺度向量研究获重要突破

缩放向量的参数占比微乎其微，但移除它训练就崩溃

缩放向量不是在增强表达力，而是在修复优化路径

Input-Norm 和 Output-Norm 的缩放向量扮演着不同角色

理解缩放向量的真实机制比盲目堆参数更重要

相关推荐