工具模式压缩破解智能RAG上下文冲突

当RAG系统集成的外部工具越来越多，工具的描述信息本身就成了吞噬上下文窗口的”隐形杀手”。一篇来自研究者 Furkan Sakizli 的最新论文，系统性地揭示了这个被忽视的问题，并给出了一个简洁而有效的压缩方案。

工具描述正在悄悄吃掉你的上下文预算

在 agent 架构中，LLM 每次调用工具前都需要读取完整的工具 schema——包括参数定义、功能描述、使用示例等。当工具数量达到几十个时，这些静态文本可能占据数千甚至上万个 token。Sakizli 在实验中使用了 28 个工具，涉及 6,566 次 API 调用，测试了从 1.5B 到 32B 参数规模的 14 个模型，在 8K、16K、32K 三种上下文预算下进行对比。结果很直接：在 8K 预算下，未压缩的工具描述让 Exact Match（EM）暴跌至 2.6%——模型几乎没有可用空间来处理实际的检索内容和推理。

压缩不是简单截断，而是结构重写

论文提出的核心方法是 TSCG（Tool Schema Compression via Generation）。它的思路并非粗暴地截断描述文本，而是利用 LLM 自身对工具 schema 进行语义级别的重写——去除冗余描述、合并重复参数说明、精简示例。压缩后的 schema 保留了功能完整性，但 token 占用大幅降低。实测数据显示，TSCG 将工具描述的 token 使用量削减了 44% 到 50%。

这种压缩带来的收益在极端场景下尤为突出。以 HotpotQA 数据集为例，压缩后将 EM 提升了 48 个百分点。在 8K 预算下，压缩前后的 EM 差距高达 20.5 个点。而在 32K 预算下，压缩与未压缩格式之间的差距缩小到 1 个百分点以内——这意味着问题的核心不在于模型能力，而在于上下文空间的分配效率。

工具模式压缩方法示意图 — 不同上下文预算下，工具 schema 压缩对检索性能的影响对比

中小模型的上下文困境比想象中更严重

这项研究的一个关键发现是：工具描述的 token 压力对中小模型（1.5B-8B）的打击远大于大模型。原因很简单——中小模型本身的上下文窗口就有限，工具描述挤占了本应用于推理和检索结果处理的空间。当预算被压缩到 8K 时，小模型几乎无法同时容纳工具列表、检索文档和对话历史。TSCG 的价值在这里体现得最充分：它不是让大模型”锦上添花”，而是让中小模型”从不可用变为可用”。

上下文预算的分配效率是 Agent 工程的核心问题

这篇论文的意义不局限于工具压缩本身。它指向一个更本质的工程问题：在固定上下文窗口内，如何在不同类型的信息之间做最优分配？工具描述、系统提示、检索文档、对话历史、推理链条——每一项都在竞争同一个有限空间。TSCG 证明，对静态信息（如工具 schema）进行离线压缩，可以在不损失功能的前提下释放大量预算给动态推理。这个思路可以推广到系统提示压缩、few-shot 示例精简等更多场景。对于正在构建 agent 系统的工程师来说，上下文预算管理应该成为和模型选择同等重要的设计决策。

参考链接

Tool Schema Compression for Improved RAG Performance

工具模式压缩助力智能RAG突破

工具描述正在悄悄吃掉你的上下文预算

压缩不是简单截断，而是结构重写

中小模型的上下文困境比想象中更严重

上下文预算的分配效率是 Agent 工程的核心问题

相关推荐