MeMo记忆架构超越RAG：89.4%准确率实现权重解耦

MeMo 把 RAG 和微调之间那块灰色地带补上了

arxiv 编号 2605.15156 的论文 MeMo: Decoupled Memory Architecture for Lifelong Knowledge Acquisition 在 5 月 21 日公开，第一作者赵晨光来自北京智源人工智能研究院，合作机构包含中国人民大学高瓴学院与 Meta FAIR Paris。这篇论文不是又一个 RAG 变体，它把”记忆”从模型权重里抽出来做成一个可独立训练、可独立替换的模块，让模型在不动主权重的前提下吸收新知识——本质上是在 RAG 和全量微调之间填了一个工程上更顺手的中间档。

MeMo 记忆架构与主模型解耦示意 — MeMo 在 transformer 主干外挂一组可训练记忆向量，热插拔不动主权重

RAG 这两年的瓶颈

RAG（Retrieval-Augmented Generation）在 2023 年到 2025 年成了”给模型加新知识”的默认方案，但工程团队踩出来的坑也很统一——检索质量决定一切，向量库和 prompt 一旦失配，模型就会一本正经地编。Anthropic 在 2025 年 11 月的一篇技术博客里给过一个统计：客户场景下 RAG 输出的事实准确率中位数是 78%，长尾任务（多跳推理、跨文档对照）会掉到 50% 以下。补救手段一直是两条——要么把检索器训得更准（成本高），要么把模型在领域数据上微调一遍（容易遗忘原有能力）。

MeMo 的思路比较干净：不动主模型，也不依赖每次请求时的检索召回，而是给 transformer 主干旁路挂一组”记忆 token”，新知识被压缩成几千到几万个可训练向量后写入这组 token。推理时主模型像查 KV cache 一样读这组记忆 token。论文给的对比数字是——在 1.6 万条新知识的注入任务上，MeMo 的事实准确率达到 89.4%，原版 RAG 是 71.2%，全量 LoRA 微调是 82.6%。最关键的差异在遗忘：MeMo 在 MMLU 上的分数掉了 0.3 个点，全量 LoRA 微调掉了 4.1 个点——说明记忆解耦确实把”学新东西”和”忘旧东西”这两件事拆开了。

三个实验细节值得拿出来讲

论文实验台是 8 张 A100 80GB，主模型选了 Llama-3.1-8B 和 Qwen2.5-14B 两个底座。第一个细节是记忆容量——单次最多写入 24000 个 token 的新知识（约等于一本 200 页技术手册），主存只增加 1.7GB。第二个细节是更新成本——往现有记忆里追加 100 篇新文档的训练时间是 23 分钟，对比全量 LoRA 的 6 小时少一个数量级。第三个细节是热替换——同一个底座可以挂多个记忆库（医疗、法律、内部代码各一份），切换的代价只是换一份记忆 token，主模型保持原状。

智源研究院院长黄铁军在内部技术分享里给的评价是务实的：MeMo 的工程价值在于让”知识管理”和”模型管理”分开做生命周期。”过去我们一旦决定微调，就要管模型版本、管训练数据、管回归评测；MeMo 让组织可以按知识库为单位做版本管理，模型本身保持稳定，这对企业落地是友好的。”Meta FAIR 的合作者 Antoine Bosselut 在论文 release 后的一段访谈里补了一句更克制的判断：”MeMo 不是 RAG 的替代品，是它的补集。检索仍然适合长尾、低频、强时效的查询；MeMo 适合频繁访问的高密度知识。”

同行的批评集中在两点

OpenAI 研究员 Jason Wei 在 X 上转发时表达了保留意见：”记忆 token 的可解释性是个未解的问题——你看不到模型在’记’什么，错误也很难定位回某条具体训练样本。”这是 MeMo 这套架构最实际的限制：相比 RAG 至少能把”用了哪几篇文档”打出来给用户审计，MeMo 的回答没有可追溯的引用链，企业合规场景接入会卡壳。第二位评价者是清华大学的刘知远教授，他在朋友圈里写了一段话：”论文的实验偏向静态知识注入，对实时更新的知识（比如新闻事件）效果未知。如果记忆库要每天追加新事件，主模型推理时的稳定性能不能保住，这条还要再做实验。”

开源版本同步放在 GitHub（baai-research/MeMo），首发支持 Llama-3 和 Qwen2.5 两个家族。仓库 48 小时内拿到 2.3k star，issue 区集中在三个问题——能否支持闭源 API 模型（不能，必须能拿到 KV cache）、能否在消费级 GPU 上跑（24GB 显存可以跑 8B 底座，14B 底座要至少 40GB）、能否和 LoRA 叠加使用（论文给了一个实验，叠加之后准确率再涨 2 个点但训练时间翻倍）。

记忆和权重分离这条路开始有工程依据了

“记忆和权重应该分开”这句话从 LeCun 2022 年提 JEPA 时就在讲，但落地工作一直停在概念层。MeMo 是第一篇把这个理念跑出工程数字、并且开源给社区验证的论文。它不会立刻取代 RAG——可解释性、长尾覆盖、合规审计这些工程优势 RAG 还在——但它给”高频访问的稳定知识”这个场景提供了一个比微调更轻、比检索更准的选项。下一步社区要回答的问题是：记忆 token 能不能跨模型迁移（比如同一份记忆挂在 Llama 和 Qwen 上都能读）、记忆库的脏数据怎么定位回收、多租户场景下记忆隔离怎么做。这三个问题答完之后，MeMo 才有机会从论文走到生产。

参考链接：

记忆架构 MeMo 表现惊人

MeMo 把 RAG 和微调之间那块灰色地带补上了

RAG 这两年的瓶颈

三个实验细节值得拿出来讲

同行的批评集中在两点

记忆和权重分离这条路开始有工程依据了

相关推荐