工具模式压缩助力智能RAG突破

AI资讯

当RAG系统集成的外部工具越来越多,工具的描述信息本身就成了吞噬上下文窗口的”隐形杀手”。一篇来自研究者 Furkan Sakizli 的最新论文,系统性地揭示了这个被忽视的问题,并给出了一个简洁而有效的压缩方案。

工具描述正在悄悄吃掉你的上下文预算

在 agent 架构中,LLM 每次调用工具前都需要读取完整的工具 schema——包括参数定义、功能描述、使用示例等。当工具数量达到几十个时,这些静态文本可能占据数千甚至上万个 token。Sakizli 在实验中使用了 28 个工具,涉及 6,566 次 API 调用,测试了从 1.5B 到 32B 参数规模的 14 个模型,在 8K、16K、32K 三种上下文预算下进行对比。结果很直接:在 8K 预算下,未压缩的工具描述让 Exact Match(EM)暴跌至 2.6%——模型几乎没有可用空间来处理实际的检索内容和推理。

压缩不是简单截断,而是结构重写

论文提出的核心方法是 TSCG(Tool Schema Compression via Generation)。它的思路并非粗暴地截断描述文本,而是利用 LLM 自身对工具 schema 进行语义级别的重写——去除冗余描述、合并重复参数说明、精简示例。压缩后的 schema 保留了功能完整性,但 token 占用大幅降低。实测数据显示,TSCG 将工具描述的 token 使用量削减了 44% 到 50%

这种压缩带来的收益在极端场景下尤为突出。以 HotpotQA 数据集为例,压缩后将 EM 提升了 48 个百分点。在 8K 预算下,压缩前后的 EM 差距高达 20.5 个点。而在 32K 预算下,压缩与未压缩格式之间的差距缩小到 1 个百分点以内——这意味着问题的核心不在于模型能力,而在于上下文空间的分配效率。

工具模式压缩方法示意图
不同上下文预算下,工具 schema 压缩对检索性能的影响对比

中小模型的上下文困境比想象中更严重

这项研究的一个关键发现是:工具描述的 token 压力对中小模型(1.5B-8B)的打击远大于大模型。原因很简单——中小模型本身的上下文窗口就有限,工具描述挤占了本应用于推理和检索结果处理的空间。当预算被压缩到 8K 时,小模型几乎无法同时容纳工具列表、检索文档和对话历史。TSCG 的价值在这里体现得最充分:它不是让大模型”锦上添花”,而是让中小模型”从不可用变为可用”。

上下文预算的分配效率是 Agent 工程的核心问题

这篇论文的意义不局限于工具压缩本身。它指向一个更本质的工程问题:在固定上下文窗口内,如何在不同类型的信息之间做最优分配?工具描述、系统提示、检索文档、对话历史、推理链条——每一项都在竞争同一个有限空间。TSCG 证明,对静态信息(如工具 schema)进行离线压缩,可以在不损失功能的前提下释放大量预算给动态推理。这个思路可以推广到系统提示压缩、few-shot 示例精简等更多场景。对于正在构建 agent 系统的工程师来说,上下文预算管理应该成为和模型选择同等重要的设计决策。


参考链接