能力越强,预测越糟
arxiv 编号 2605.22672 的论文 5 月 26 日挂出来,题目是 Inverse Scaling in Frontier Forecasting Capabilities,作者来自 Apollo Research 和 METR 的联合团队,主要研究员包括 Marius Hobbhahn 和 Beth Barnes。论文用 28 个前沿模型——从 Llama-3.1-8B 一直到 GPT-5、Claude Opus 4.6、Gemini 2.5 Pro——在金融极端事件和流行病爆发两类预测任务上跑了一轮基准测试,结果反向:参数越大、推理能力越强的模型,预测误差反而更高。

这不是第一次有人观察到 inverse scaling,Anthropic 2022 年的 Inverse Scaling Prize 就给过类似奖项,但那一波集中在简单算术和模板化推理。这次 Apollo 把场景换到了真实金融时间序列和 WHO 流行病早期信号——任务里每个样本都自带极端尾部分布,模型需要正确”不被平均态拉走”。
越聪明的模型越爱按训练分布外推
论文给出的关键数据有两组。第一组是 2008 金融危机前后 12 个月的资产价格预测:Llama-3.1-8B 的 Brier 分数 0.21,GPT-5 反而是 0.34,越大模型损失越高。第二组是 2020 年 1 到 3 月的 COVID-19 病例增长曲线预测:Claude 3.5 Sonnet 的 RMSE 比 Claude Opus 4.6 低 31%。两组数据都指向同一个结论——大模型在训练分布的中心更稳,但面对训练集外的极端事件时,它会过度依赖训练时形成的”正常态”先验。
Apollo Research 主任 Marius Hobbhahn 在论文摘要里直接写:”当我们把前沿模型部署到金融、公共卫生、能源等需要预测极端事件的场景时,’更大就更好’的直觉会反向。AI safety 的评测框架里必须把这一类 inverse scaling 任务设为强制项。”METR 联合创始人 Beth Barnes 在 X 上加了一段:”这是我们做 ARA 评测两年来最直观的提醒——能力评估的方向需要和部署场景挂钩,不能只看 MMLU。”
评测体系要做”分布外”专项
这篇论文的真正价值不在那两组数据本身,而在它把”大模型在尾部分布上的失效”从经验印象推到了量化证据。MMLU、GSM8K、HumanEval 这一档评测基本测的是分布内能力,模型刷分到 90% 以上之后,业内已经默认这套基准吃饱了;但部署到金融、公共卫生场景里的真问题——”接下来一个月会不会出现极端波动”——恰好属于分布外。模型按训练时的众数外推,碰到尾部就摔。
论文还没经过同行评审,方法部分有几处会被审稿人盯:一是金融预测样本的数据泄漏(模型预训练时是不是已经见过 2008 之后的数据),二是 Brier 分数和 RMSE 在不同任务上的可比性。即便细节有争议,”评测体系要给分布外预测设专项”这个建议在公共政策圈已经开始被引用——欧盟 AI Act 的实施细则二稿里就提到要把”安全相关的极端事件预测能力”纳入高风险系统的合规检查。
参考:arxiv 论文