Shannon 信道容量复活：Chinchilla 之后第一个理论框架

论文出处与争议焦点

arxiv 5 月 26 日挂出来一篇编号 2605.23901 的论文，题目是 Reframing Neural Scaling Laws via Shannon’s Channel Capacity，第一作者 Ethan Caballero 来自 Mila（魁北克 AI 研究所），合作单位有 EleutherAI 和 Google DeepMind 的部分研究员。研究把神经网络的 scaling law 重新放回信息论的框架里——直接调用 Claude Shannon 1948 年提出的信道容量公式，去解释为什么主流的 Chinchilla、Hoffmann scaling law 在某些区段会”失灵”。

Hoffmann 等人 2022 年那篇 Chinchilla 论文给出的经验公式是 L(N, D) ∝ N^(-α) + D^(-β)，参数和数据按一定比例同步扩张时损失稳定下降。问题是 2025 年之后社区在万亿级别参数模型上反复观察到偏离曲线的”鼓包”——同样的算力预算，模型在某个区段反而退化。Hoffmann 公式没法预测这种现象，只能事后拟合。

用信道容量定一道理论上限

Caballero 团队的做法是把训练过程视作一个有噪信道：训练数据是输入信号，模型权重是接收端，损失下降的速率上限受信道容量 C = B·log₂(1+SNR) 约束。他们把”模型容量过载”对应到 SNR 跌出最优区段——参数过多导致每个 token 携带的有效信号比例下降，模型反而退化。论文给出的核心预测公式 L = C – I(D; θ) 把损失写成数据—参数互信息的差，能在不重新训练的前提下，对未见过的模型规模直接外推损失值。

实验部分覆盖了从 70M 到 70B 参数的 12 个 checkpoint，论文里报告的预测误差在 ±2.3% 之内，远好于 Chinchilla 公式在同一组数据上的 ±9.1%。EleutherAI 创始人 Stella Biderman 在转推时给的评价是：”这是过去三年我看到最值得做独立复现的 scaling 论文——如果误差区间真的稳得住，下次大模型预算分配会议的依据要换了。”

Chinchilla 之后第一个理论框架

Chinchilla 公式本质是经验拟合，没有从第一性原理解释为什么是那个指数。Caballero 这套框架第一次把 scaling law 接到了一条已经被验证 70 多年的理论上——信息论。哪怕公式细节后续被修正，”用信道容量定上限”这个思路也会被沿用。Mila 教授 Yoshua Bengio 在论文致谢里署了名，他在 X 上没多说，只发了一句”信息论这次回来得正是时候”。

需要注意的是论文还没经过同行评审。审稿过程通常会盯两件事：一是信道容量公式里 B 和 SNR 怎么从模型训练动力学中估出来，二是更大规模（比如 1T 以上）实际数据是否仍在误差区间内。社区的第一轮复现要等接下来一两周，看 EleutherAI、HuggingFace 的研究员能不能在自己的 checkpoint 上跑出同等精度。

参考：arxiv 论文

香农理论重构大模型缩放规律

论文出处与争议焦点

用信道容量定一道理论上限

Chinchilla 之后第一个理论框架

相关推荐