论文出处与争议焦点
arxiv 5 月 26 日挂出来一篇编号 2605.23901 的论文,题目是 Reframing Neural Scaling Laws via Shannon’s Channel Capacity,第一作者 Ethan Caballero 来自 Mila(魁北克 AI 研究所),合作单位有 EleutherAI 和 Google DeepMind 的部分研究员。研究把神经网络的 scaling law 重新放回信息论的框架里——直接调用 Claude Shannon 1948 年提出的信道容量公式,去解释为什么主流的 Chinchilla、Hoffmann scaling law 在某些区段会”失灵”。

Hoffmann 等人 2022 年那篇 Chinchilla 论文给出的经验公式是 L(N, D) ∝ N^(-α) + D^(-β),参数和数据按一定比例同步扩张时损失稳定下降。问题是 2025 年之后社区在万亿级别参数模型上反复观察到偏离曲线的”鼓包”——同样的算力预算,模型在某个区段反而退化。Hoffmann 公式没法预测这种现象,只能事后拟合。
用信道容量定一道理论上限
Caballero 团队的做法是把训练过程视作一个有噪信道:训练数据是输入信号,模型权重是接收端,损失下降的速率上限受信道容量 C = B·log₂(1+SNR) 约束。他们把”模型容量过载”对应到 SNR 跌出最优区段——参数过多导致每个 token 携带的有效信号比例下降,模型反而退化。论文给出的核心预测公式 L = C – I(D; θ) 把损失写成数据—参数互信息的差,能在不重新训练的前提下,对未见过的模型规模直接外推损失值。
实验部分覆盖了从 70M 到 70B 参数的 12 个 checkpoint,论文里报告的预测误差在 ±2.3% 之内,远好于 Chinchilla 公式在同一组数据上的 ±9.1%。EleutherAI 创始人 Stella Biderman 在转推时给的评价是:”这是过去三年我看到最值得做独立复现的 scaling 论文——如果误差区间真的稳得住,下次大模型预算分配会议的依据要换了。”
Chinchilla 之后第一个理论框架
Chinchilla 公式本质是经验拟合,没有从第一性原理解释为什么是那个指数。Caballero 这套框架第一次把 scaling law 接到了一条已经被验证 70 多年的理论上——信息论。哪怕公式细节后续被修正,”用信道容量定上限”这个思路也会被沿用。Mila 教授 Yoshua Bengio 在论文致谢里署了名,他在 X 上没多说,只发了一句”信息论这次回来得正是时候”。
需要注意的是论文还没经过同行评审。审稿过程通常会盯两件事:一是信道容量公式里 B 和 SNR 怎么从模型训练动力学中估出来,二是更大规模(比如 1T 以上)实际数据是否仍在误差区间内。社区的第一轮复现要等接下来一两周,看 EleutherAI、HuggingFace 的研究员能不能在自己的 checkpoint 上跑出同等精度。
参考:arxiv 论文