大模型能力实测报告:百万级长上下文能力涨,安全与商业决策回退

AI资讯
大模型能力评测雷达图与对比柱状图
长上下文涨了,安全和决策却往回走

X 上一位长期做模型评测的博主放出最新一期实测报告,覆盖六款新一代主流模型。他在置顶推文里写:长上下文这条线全员上扬,但安全对齐和商业决策两条线,多数模型都出现了明显回退。

百万级长上下文的提升是真的

报告里的数字给得很细。在 100 万 token 的长文档检索任务上,新一代模型的回答准确率平均 87%,相比上一代的 71% 有明显跳升;在跨文档推理任务上,准确率从 58% 涨到 74%。多智能体协同任务上,10 个 agent 并行处理同一目标的成功率,新模型平均 82%,前代是 65%。这些数字说明长上下文与多 agent 这两个方向,整个行业的工程能力确实在往前走。

安全与商业决策为什么集体回退

同一份报告里,安全对齐评分平均下降 9 个百分点,商业决策(涉及合规、风险评估、合同条款分析)评分下降 6 个百分点。博主分析的原因是:训练侧为了拉长上下文窗口,需要把 RLHF 的样本结构调整成更长的序列,短期内安全标注样本被稀释;商业决策的回退则更多来自”过度自信”——新模型回答更果断,但在拿不准的时候不再说”建议咨询专业人士”。报告还附了一组对照案例:同一道合同纠纷题,前代模型给出三种风险提示,新模型直接给出单一结论,正确率从 71% 降到 58%。

盲目追新版会吃亏,业务落地要按任务挑模型

很多团队看到长上下文涨就着急升级模型版本,这是典型的指标驱动。报告里那条安全和决策回退的曲线值得每个产品经理停下来看一下:如果你的业务是合规审查、医疗咨询、金融建议,新版模型未必比老版强,反而可能因为过度自信引入新风险。挑模型这件事不能只看 benchmark 总分,要按自家业务场景的关键任务去对照具体子项的得分。


参考:X 上的模型实测报告