
新研究把文本压缩这件事从专门模型手里抢了回来。论文作者写道「推理与压缩本属同源任务」,言外之意是,推理型大模型不需要再叠加一套压缩工具,自己就能把长文章截短、保留核心信息,而且可控性比专门模型还更好。这一发现对工程团队是直接的成本节约,也对压缩模型这条独立赛道发出了警告。
零训练版跑赢同体量专门压缩模型
团队让推理大模型直接输出压缩文本,全程没有任何微调,也没有附加奖励信号。在 4 类公开基准上,零训练版本的压缩长度比同体量专门模型短 18% 左右,关键信息覆盖率反而高出 6 到 9 个百分点。模型还能按指令把压缩比从 30% 调到 70%,输出依然连贯,没有出现常见的关键事实丢失。研究者在长论文摘要任务上测出 ROUGE-L 提升超过 4 分,这种幅度在传统压缩研究里通常需要专门数据集训练几轮才能拿到。
推理链条本身就是裁剪的过程
研究者指出,推理大模型在解题阶段就在持续裁剪无关信息,把思考链压到最短。把这套已经成熟的内部决策机制暴露给压缩任务,等于直接复用了模型本来就会的能力,所以根本不需要额外训练。当前方法覆盖中英两种语言,长文摘要、代码注释和会议纪要这三类高频场景都跑通了,开源代码也已经放出。论文里特别提到,模型在压缩过程中会先做信息重要性排序,再决定保留哪些片段,整个过程对用户透明,可以随时插入指令调整偏重。
专门做文本压缩的模型时代基本走到头
过去几年,文本压缩是一条相对孤立的研究路线,专门模型一直在迭代,但能力曲线越来越平。这项工作把它和主流推理模型合到一起,结论很直白:花一份算力单独训练一个压缩模型,性价比正在迅速失效。后续做摘要、检索增强或上下文裁剪的工程团队,应该先试推理模型的零训练方案,把它当默认选项,再决定要不要再叠加一个小模型。继续单独维护压缩模型这条路,预算和精力都不太值得了。
参考:arXiv 自压缩研究