Inverse Scaling 卷土重来：评测体系要做分布外专项

能力越强，预测越糟

arxiv 编号 2605.22672 的论文 5 月 26 日挂出来，题目是 Inverse Scaling in Frontier Forecasting Capabilities，作者来自 Apollo Research 和 METR 的联合团队，主要研究员包括 Marius Hobbhahn 和 Beth Barnes。论文用 28 个前沿模型——从 Llama-3.1-8B 一直到 GPT-5、Claude Opus 4.6、Gemini 2.5 Pro——在金融极端事件和流行病爆发两类预测任务上跑了一轮基准测试，结果反向：参数越大、推理能力越强的模型，预测误差反而更高。

这不是第一次有人观察到 inverse scaling，Anthropic 2022 年的 Inverse Scaling Prize 就给过类似奖项，但那一波集中在简单算术和模板化推理。这次 Apollo 把场景换到了真实金融时间序列和 WHO 流行病早期信号——任务里每个样本都自带极端尾部分布，模型需要正确”不被平均态拉走”。

越聪明的模型越爱按训练分布外推

论文给出的关键数据有两组。第一组是 2008 金融危机前后 12 个月的资产价格预测：Llama-3.1-8B 的 Brier 分数 0.21，GPT-5 反而是 0.34，越大模型损失越高。第二组是 2020 年 1 到 3 月的 COVID-19 病例增长曲线预测：Claude 3.5 Sonnet 的 RMSE 比 Claude Opus 4.6 低 31%。两组数据都指向同一个结论——大模型在训练分布的中心更稳，但面对训练集外的极端事件时，它会过度依赖训练时形成的”正常态”先验。

Apollo Research 主任 Marius Hobbhahn 在论文摘要里直接写：”当我们把前沿模型部署到金融、公共卫生、能源等需要预测极端事件的场景时，’更大就更好’的直觉会反向。AI safety 的评测框架里必须把这一类 inverse scaling 任务设为强制项。”METR 联合创始人 Beth Barnes 在 X 上加了一段：”这是我们做 ARA 评测两年来最直观的提醒——能力评估的方向需要和部署场景挂钩，不能只看 MMLU。”

评测体系要做”分布外”专项

这篇论文的真正价值不在那两组数据本身，而在它把”大模型在尾部分布上的失效”从经验印象推到了量化证据。MMLU、GSM8K、HumanEval 这一档评测基本测的是分布内能力，模型刷分到 90% 以上之后，业内已经默认这套基准吃饱了；但部署到金融、公共卫生场景里的真问题——”接下来一个月会不会出现极端波动”——恰好属于分布外。模型按训练时的众数外推，碰到尾部就摔。

论文还没经过同行评审，方法部分有几处会被审稿人盯：一是金融预测样本的数据泄漏（模型预训练时是不是已经见过 2008 之后的数据），二是 Brier 分数和 RMSE 在不同任务上的可比性。即便细节有争议，”评测体系要给分布外预测设专项”这个建议在公共政策圈已经开始被引用——欧盟 AI Act 的实施细则二稿里就提到要把”安全相关的极端事件预测能力”纳入高风险系统的合规检查。

参考：arxiv 论文

大模型预测能力存在逆向缩放

能力越强，预测越糟

越聪明的模型越爱按训练分布外推

评测体系要做”分布外”专项

相关推荐