大模型长任务推理崩溃问题获解

AI资讯

大语言模型在 Web 搜索、深度调研等长周期任务中的表现,随上下文累积而急剧下降,这一现象被称为”长上下文退化”。更棘手的是,不同 Agent 对上下文管理的需求各不相同:有的需要高保真保留以维持推理质量,有的则需要激进压缩以避免信息过载。现有方案要么要求 Agent 自身参与上下文控制(对闭源模型不适用),要么使用固定的摘要策略,无法适配不同 Agent 的能力差异。

外挂上下文管理器:不修改 Agent 也能优化推理

由中国人民大学、阿里巴巴集团及蒙特利尔大学联合团队提出的 AdaCoM(Adaptive Context Management)框架,采用了一条不同的技术路线——训练一个外部的 LLM 作为上下文管理器来操控目标 Agent 的上下文内容。这一设计使 AdaCoM 对 Agent 本身完全无侵入,闭源模型同样可以受益。

AdaCoM 的训练采用端到端强化学习,通过学习一系列灵活的上下文修改操作——包括保留、剪枝、摘要替换等——来为冻结的 Agent 维护最优的上下文窗口。具体工作机制包括:

  • 将上下文管理建模为序列决策问题,外部 LLM 通过 RL 学习何时保留、何时剪裁、何时摘要化
  • 在 Web 搜索和深度调研两个具有代表性的长周期任务基准上进行评估,覆盖多种主流 Agent 架构
  • 学习到的策略揭示了”保真度-可靠性权衡”:ReAct 表现越高的 Agent 越需要高保真上下文保留,而能力较低的 Agent 反而需要更激进的压缩才能进入可靠的推理区间

“我们最意外的发现是这条权衡曲线。”论文通讯作者、中国人民大学副教授魏哲巍(Zhewei Wei)介绍,”直觉上可能以为强 Agent 更有能力处理冗余信息,但实际结果恰恰相反——强 Agent 能更有效地利用高保真上下文中的细节,而弱 Agent 会被这些细节拖垮。”

跨 Agent 迁移:能力相近的管理器可以复用

AdaCoM 的一项实用特性是可迁移性。研究发现,在同一 Agent 上训练好的上下文管理器,迁移到能力相近的其他 Agent 时仍能保持较好的性能。具体而言,管理器的有效性主要取决于目标 Agent 的”原始 ReAct 表现”这一标量指标,而非 Agent 的具体实现细节。

实验数据显示,AdaCoM 在多个 Agent 和基准上均显著优于固定策略的上下文管理方案,在长周期搜索任务中的准确率提升幅度在 8% 到 15% 之间。这一结果表明,外挂式上下文管理是一条可规模化、可复用的技术路线,有望成为 Agent 系统的基础设施组件。

局限性与后续

AdaCoM 需要一个额外的外部 LLM 作为上下文管理器,这带来了额外的推理开销。虽然这部分开销相比主 Agent 的计算量通常较小,但在实时性要求极高的场景中仍需谨慎对待。此外,跨 Agent 迁移的效果目前仅在小规模实验中得到验证,更大范围的迁移测试还有待开展。研究团队表示,未来将探索更轻量的管理模型以及多 Agent 协作场景下的上下文共享策略。


参考:Learning Agent-Compatible Context Management for Long-Horizon Tasks, arXiv:2605.30785