大模型长任务推理崩溃有了新解法

大语言模型在 Web 搜索、深度调研等长周期任务中的表现，随上下文累积而急剧下降，这一现象被称为”长上下文退化”。更棘手的是，不同 Agent 对上下文管理的需求各不相同：有的需要高保真保留以维持推理质量，有的则需要激进压缩以避免信息过载。现有方案要么要求 Agent 自身参与上下文控制（对闭源模型不适用），要么使用固定的摘要策略，无法适配不同 Agent 的能力差异。

外挂上下文管理器：不修改 Agent 也能优化推理

由中国人民大学、阿里巴巴集团及蒙特利尔大学联合团队提出的 AdaCoM（Adaptive Context Management）框架，采用了一条不同的技术路线——训练一个外部的 LLM 作为上下文管理器来操控目标 Agent 的上下文内容。这一设计使 AdaCoM 对 Agent 本身完全无侵入，闭源模型同样可以受益。

AdaCoM 的训练采用端到端强化学习，通过学习一系列灵活的上下文修改操作——包括保留、剪枝、摘要替换等——来为冻结的 Agent 维护最优的上下文窗口。具体工作机制包括：

将上下文管理建模为序列决策问题，外部 LLM 通过 RL 学习何时保留、何时剪裁、何时摘要化
在 Web 搜索和深度调研两个具有代表性的长周期任务基准上进行评估，覆盖多种主流 Agent 架构
学习到的策略揭示了”保真度-可靠性权衡”：ReAct 表现越高的 Agent 越需要高保真上下文保留，而能力较低的 Agent 反而需要更激进的压缩才能进入可靠的推理区间

“我们最意外的发现是这条权衡曲线。”论文通讯作者、中国人民大学副教授魏哲巍（Zhewei Wei）介绍，”直觉上可能以为强 Agent 更有能力处理冗余信息，但实际结果恰恰相反——强 Agent 能更有效地利用高保真上下文中的细节，而弱 Agent 会被这些细节拖垮。”

跨 Agent 迁移：能力相近的管理器可以复用

AdaCoM 的一项实用特性是可迁移性。研究发现，在同一 Agent 上训练好的上下文管理器，迁移到能力相近的其他 Agent 时仍能保持较好的性能。具体而言，管理器的有效性主要取决于目标 Agent 的”原始 ReAct 表现”这一标量指标，而非 Agent 的具体实现细节。

实验数据显示，AdaCoM 在多个 Agent 和基准上均显著优于固定策略的上下文管理方案，在长周期搜索任务中的准确率提升幅度在 8% 到 15% 之间。这一结果表明，外挂式上下文管理是一条可规模化、可复用的技术路线，有望成为 Agent 系统的基础设施组件。

局限性与后续

AdaCoM 需要一个额外的外部 LLM 作为上下文管理器，这带来了额外的推理开销。虽然这部分开销相比主 Agent 的计算量通常较小，但在实时性要求极高的场景中仍需谨慎对待。此外，跨 Agent 迁移的效果目前仅在小规模实验中得到验证，更大范围的迁移测试还有待开展。研究团队表示，未来将探索更轻量的管理模型以及多 Agent 协作场景下的上下文共享策略。

参考：Learning Agent-Compatible Context Management for Long-Horizon Tasks, arXiv:2605.30785

大模型长任务推理崩溃问题获解

外挂上下文管理器：不修改 Agent 也能优化推理

跨 Agent 迁移：能力相近的管理器可以复用

局限性与后续

相关推荐