缩放定律(Scaling Law)是近两年大模型领域最热门的研究方向之一,但现有工作大多只覆盖了有限维度——参数量与数据量的关系,或者计算量与损失的关系。Ethan Caballero、Priyank Jaini、David Krueger 和 Irina Rish 四位研究者提出了 UNSL(Unified Neural Scaling Law),试图用一个统一的函数形式覆盖所有影响模型性能的关键变量。
现有缩放定律的碎片化问题比想象中严重
目前社区广泛使用的缩放定律存在一个共同局限:每条定律只描述少数变量之间的关系。Chinchilla Law 关联参数量和数据量;推理缩放定律关联推理步数和准确率;计算最优缩放定律关联 FLOPs 和损失值。当工程师需要同时考虑训练步数、超参数调整、推理预算等多个维度时,这些孤立的定律无法提供一致的预测——甚至可能在交叉点上给出相互矛盾的结论。Caballero 等人指出,这种碎片化不仅影响理论一致性,更直接阻碍了实际的模型开发决策。

一个函数形式覆盖六维变量
UNSL 的核心贡献在于:它提出了一个单一的函数形式,可以同时描述模型参数量、数据规模、训练步数、推理步数、计算预算和超参数这六个维度与最终性能之间的关系。论文声称,这个统一形式在拟合已有数据时,比各维度独立的缩放定律有更好的外推能力。这意味着:在资源有限的情况下,开发者可以用 UNSL 来预测在不同资源分配方案下模型的预期表现,而不需要逐一训练验证。
跨任务泛化是检验缩放定律的真正试金石
这篇论文的评估范围相当广泛,涵盖了视觉、语言、数学和强化学习四个任务领域。这是一个重要的测试维度——如果一条缩放定律只在语言建模上成立,它的普适性就值得怀疑。UNSL 在四个领域都展示了优于现有独立缩放定律的外推精度。不过需要指出的是,论文中部分外推实验的范围仍然有限(例如从较小模型预测较大模型时的倍数跨度),更极端的外推是否依然可靠,还需要社区在更大规模实验中验证。
统一缩放定律的真正价值在于降低试错成本
从工程实践角度看,UNSL 最直接的应用场景是资源规划。当前,决定一个训练任务的计算分配、数据配比、模型规模组合,往往需要多轮小规模预实验来校准。如果 UNSL 的预测足够准确,这些预实验的规模可以大幅缩减。更深远的影响在于:当多个维度的缩放关系被统一到同一个数学框架下后,我们可以更系统地理解不同维度之间的权衡——例如,在固定计算预算下,增加推理步数和增加模型参数哪个更划算。这类问题的答案目前大多依赖经验判断,UNSL 提供了将其转化为定量分析的可能性。当然,统一定律能否在万亿参数规模上保持预测精度,仍是一个开放问题。
参考链接