Cordon-MAS分舱架构把RAG投毒成功率降九成

RAG 系统的安全性正在成为一个被严重低估的攻击面。当检索管道从外部数据源拉取内容时，攻击者可以通过投毒文档植入恶意信息，让模型在毫不知情的情况下生成虚假回答。Zhe Yu 等研究者在最新论文中提出的 Cordon-MAS 框架，试图从根本上改变 RAG 系统的防御思路。

检索管道的开放性就是最大的安全漏洞

传统 RAG 安全方案通常假设：只要对检索结果做一轮过滤或对模型输出做一轮审查就够了。但 Yu 等人指出了一个被忽视的结构性问题——他们称之为 “Monitoring-Control Gap”（监控-控制鸿沟）。在标准 RAG 流程中，检索、证据提取和答案生成是串联执行的，上游的污染会逐级传播，而下游的审查机制无法回溯到污染源头。更关键的是，单一 agent 同时负责检索和生成时，它缺乏对自身过程的独立审计能力——这就像让嫌疑人自己审查自己的证词。

三 agent 隔离架构与不对称记忆权限

Cordon-MAS 的核心设计是将 RAG 流程拆分为三个独立 agent：证据提取 agent、跨源审计 agent和答案合成 agent。每个 agent 只能访问完成任务所需的最小信息集合，且权限是不对称的。证据提取 agent 只能看到原始检索文档；审计 agent 可以对比多个数据源的证据一致性，但无法直接生成最终答案；合成 agent 只接收经过审计筛选的证据摘要，无法接触原始文档。这种设计的关键在于：即使某个 agent 被投毒内容影响，污染也不会跨 agent 传播，因为每个 agent 的输入和记忆空间是严格隔离的。

Cordon-MAS 多 agent 安全架构 — Cordon-MAS 通过三 agent 隔离与不对称权限实现检索管道的安全防护

92.4% 的攻击阻断率来自架构而非模型能力

在 5 个 BEIR 数据集上的评估结果令人印象深刻：Cordon-MAS 将攻击成功率降低了 92.4%。值得注意的是，这个数字的来源并非使用了更强的基座模型——实验中使用的都是标准开源模型。性能提升完全来自架构层面的隔离设计。这印证了论文的核心论点：RAG 安全问题的根源是流程架构的缺陷，而非模型本身的辨别能力不足。当一个 agent 同时承担检索、判断和生成三重角色时，投毒攻击的成功率自然很高；而一旦将这三个角色拆分并设置权限隔离，攻击者就需要同时欺骗三个独立系统才能得手。

多 agent 安全架构应成为 RAG 系统的默认设计

这项研究传递的信号非常明确：在 RAG 系统中，安全不应该是一个事后附加的过滤层，而应该内嵌在系统架构中。Cordon-MAS 的三 agent 隔离模式虽然增加了系统复杂度，但它提供的安全保障是单 agent 方案无法企及的。随着 RAG 系统在金融、医疗、法律等高敏感场景中的部署越来越广泛，攻击者的动机和手段也会持续升级。与其在模型层面不断修补防御漏洞，不如从架构层面消除污染传播的路径。Cordon-MAS 提供了一个值得认真考虑的起点。

参考链接

Cordon-MAS: Multi-Agent Security for RAG Systems

学者提出RAG检索防毒新架构

检索管道的开放性就是最大的安全漏洞

三 agent 隔离架构与不对称记忆权限

92.4% 的攻击阻断率来自架构而非模型能力

多 agent 安全架构应成为 RAG 系统的默认设计

相关推荐