MeMo 把 RAG 和微调之间那块灰色地带补上了
arxiv 编号 2605.15156 的论文 MeMo: Decoupled Memory Architecture for Lifelong Knowledge Acquisition 在 5 月 21 日公开,第一作者赵晨光来自北京智源人工智能研究院,合作机构包含中国人民大学高瓴学院与 Meta FAIR Paris。这篇论文不是又一个 RAG 变体,它把”记忆”从模型权重里抽出来做成一个可独立训练、可独立替换的模块,让模型在不动主权重的前提下吸收新知识——本质上是在 RAG 和全量微调之间填了一个工程上更顺手的中间档。

RAG 这两年的瓶颈
RAG(Retrieval-Augmented Generation)在 2023 年到 2025 年成了”给模型加新知识”的默认方案,但工程团队踩出来的坑也很统一——检索质量决定一切,向量库和 prompt 一旦失配,模型就会一本正经地编。Anthropic 在 2025 年 11 月的一篇技术博客里给过一个统计:客户场景下 RAG 输出的事实准确率中位数是 78%,长尾任务(多跳推理、跨文档对照)会掉到 50% 以下。补救手段一直是两条——要么把检索器训得更准(成本高),要么把模型在领域数据上微调一遍(容易遗忘原有能力)。
MeMo 的思路比较干净:不动主模型,也不依赖每次请求时的检索召回,而是给 transformer 主干旁路挂一组”记忆 token”,新知识被压缩成几千到几万个可训练向量后写入这组 token。推理时主模型像查 KV cache 一样读这组记忆 token。论文给的对比数字是——在 1.6 万条新知识的注入任务上,MeMo 的事实准确率达到 89.4%,原版 RAG 是 71.2%,全量 LoRA 微调是 82.6%。最关键的差异在遗忘:MeMo 在 MMLU 上的分数掉了 0.3 个点,全量 LoRA 微调掉了 4.1 个点——说明记忆解耦确实把”学新东西”和”忘旧东西”这两件事拆开了。
三个实验细节值得拿出来讲
论文实验台是 8 张 A100 80GB,主模型选了 Llama-3.1-8B 和 Qwen2.5-14B 两个底座。第一个细节是记忆容量——单次最多写入 24000 个 token 的新知识(约等于一本 200 页技术手册),主存只增加 1.7GB。第二个细节是更新成本——往现有记忆里追加 100 篇新文档的训练时间是 23 分钟,对比全量 LoRA 的 6 小时少一个数量级。第三个细节是热替换——同一个底座可以挂多个记忆库(医疗、法律、内部代码各一份),切换的代价只是换一份记忆 token,主模型保持原状。
智源研究院院长黄铁军在内部技术分享里给的评价是务实的:MeMo 的工程价值在于让”知识管理”和”模型管理”分开做生命周期。”过去我们一旦决定微调,就要管模型版本、管训练数据、管回归评测;MeMo 让组织可以按知识库为单位做版本管理,模型本身保持稳定,这对企业落地是友好的。”Meta FAIR 的合作者 Antoine Bosselut 在论文 release 后的一段访谈里补了一句更克制的判断:”MeMo 不是 RAG 的替代品,是它的补集。检索仍然适合长尾、低频、强时效的查询;MeMo 适合频繁访问的高密度知识。”
同行的批评集中在两点
OpenAI 研究员 Jason Wei 在 X 上转发时表达了保留意见:”记忆 token 的可解释性是个未解的问题——你看不到模型在’记’什么,错误也很难定位回某条具体训练样本。”这是 MeMo 这套架构最实际的限制:相比 RAG 至少能把”用了哪几篇文档”打出来给用户审计,MeMo 的回答没有可追溯的引用链,企业合规场景接入会卡壳。第二位评价者是清华大学的刘知远教授,他在朋友圈里写了一段话:”论文的实验偏向静态知识注入,对实时更新的知识(比如新闻事件)效果未知。如果记忆库要每天追加新事件,主模型推理时的稳定性能不能保住,这条还要再做实验。”
开源版本同步放在 GitHub(baai-research/MeMo),首发支持 Llama-3 和 Qwen2.5 两个家族。仓库 48 小时内拿到 2.3k star,issue 区集中在三个问题——能否支持闭源 API 模型(不能,必须能拿到 KV cache)、能否在消费级 GPU 上跑(24GB 显存可以跑 8B 底座,14B 底座要至少 40GB)、能否和 LoRA 叠加使用(论文给了一个实验,叠加之后准确率再涨 2 个点但训练时间翻倍)。
记忆和权重分离这条路开始有工程依据了
“记忆和权重应该分开”这句话从 LeCun 2022 年提 JEPA 时就在讲,但落地工作一直停在概念层。MeMo 是第一篇把这个理念跑出工程数字、并且开源给社区验证的论文。它不会立刻取代 RAG——可解释性、长尾覆盖、合规审计这些工程优势 RAG 还在——但它给”高频访问的稳定知识”这个场景提供了一个比微调更轻、比检索更准的选项。下一步社区要回答的问题是:记忆 token 能不能跨模型迁移(比如同一份记忆挂在 Llama 和 Qwen 上都能读)、记忆库的脏数据怎么定位回收、多租户场景下记忆隔离怎么做。这三个问题答完之后,MeMo 才有机会从论文走到生产。
参考链接: