大模型实测报告：百万级长上下文涨，安全与商业决策回退

X 上一位长期做模型评测的博主放出最新一期实测报告，覆盖六款新一代主流模型。他在置顶推文里写：长上下文这条线全员上扬，但安全对齐和商业决策两条线，多数模型都出现了明显回退。

百万级长上下文的提升是真的

报告里的数字给得很细。在 100 万 token 的长文档检索任务上，新一代模型的回答准确率平均 87%，相比上一代的 71% 有明显跳升；在跨文档推理任务上，准确率从 58% 涨到 74%。多智能体协同任务上，10 个 agent 并行处理同一目标的成功率，新模型平均 82%，前代是 65%。这些数字说明长上下文与多 agent 这两个方向，整个行业的工程能力确实在往前走。

安全与商业决策为什么集体回退

同一份报告里，安全对齐评分平均下降 9 个百分点，商业决策（涉及合规、风险评估、合同条款分析）评分下降 6 个百分点。博主分析的原因是：训练侧为了拉长上下文窗口，需要把 RLHF 的样本结构调整成更长的序列，短期内安全标注样本被稀释；商业决策的回退则更多来自”过度自信”——新模型回答更果断，但在拿不准的时候不再说”建议咨询专业人士”。报告还附了一组对照案例：同一道合同纠纷题，前代模型给出三种风险提示，新模型直接给出单一结论，正确率从 71% 降到 58%。

盲目追新版会吃亏，业务落地要按任务挑模型

很多团队看到长上下文涨就着急升级模型版本，这是典型的指标驱动。报告里那条安全和决策回退的曲线值得每个产品经理停下来看一下：如果你的业务是合规审查、医疗咨询、金融建议，新版模型未必比老版强，反而可能因为过度自信引入新风险。挑模型这件事不能只看 benchmark 总分，要按自家业务场景的关键任务去对照具体子项的得分。

参考：X 上的模型实测报告

大模型能力实测报告：百万级长上下文能力涨，安全与商业决策回退

百万级长上下文的提升是真的

安全与商业决策为什么集体回退

盲目追新版会吃亏，业务落地要按任务挑模型

相关推荐