学者提出RAG检索防毒新架构

AI资讯

RAG 系统的安全性正在成为一个被严重低估的攻击面。当检索管道从外部数据源拉取内容时,攻击者可以通过投毒文档植入恶意信息,让模型在毫不知情的情况下生成虚假回答。Zhe Yu 等研究者在最新论文中提出的 Cordon-MAS 框架,试图从根本上改变 RAG 系统的防御思路。

检索管道的开放性就是最大的安全漏洞

传统 RAG 安全方案通常假设:只要对检索结果做一轮过滤或对模型输出做一轮审查就够了。但 Yu 等人指出了一个被忽视的结构性问题——他们称之为 “Monitoring-Control Gap”(监控-控制鸿沟)。在标准 RAG 流程中,检索、证据提取和答案生成是串联执行的,上游的污染会逐级传播,而下游的审查机制无法回溯到污染源头。更关键的是,单一 agent 同时负责检索和生成时,它缺乏对自身过程的独立审计能力——这就像让嫌疑人自己审查自己的证词。

三 agent 隔离架构与不对称记忆权限

Cordon-MAS 的核心设计是将 RAG 流程拆分为三个独立 agent:证据提取 agent跨源审计 agent答案合成 agent。每个 agent 只能访问完成任务所需的最小信息集合,且权限是不对称的。证据提取 agent 只能看到原始检索文档;审计 agent 可以对比多个数据源的证据一致性,但无法直接生成最终答案;合成 agent 只接收经过审计筛选的证据摘要,无法接触原始文档。这种设计的关键在于:即使某个 agent 被投毒内容影响,污染也不会跨 agent 传播,因为每个 agent 的输入和记忆空间是严格隔离的。

Cordon-MAS 多 agent 安全架构
Cordon-MAS 通过三 agent 隔离与不对称权限实现检索管道的安全防护

92.4% 的攻击阻断率来自架构而非模型能力

在 5 个 BEIR 数据集上的评估结果令人印象深刻:Cordon-MAS 将攻击成功率降低了 92.4%。值得注意的是,这个数字的来源并非使用了更强的基座模型——实验中使用的都是标准开源模型。性能提升完全来自架构层面的隔离设计。这印证了论文的核心论点:RAG 安全问题的根源是流程架构的缺陷,而非模型本身的辨别能力不足。当一个 agent 同时承担检索、判断和生成三重角色时,投毒攻击的成功率自然很高;而一旦将这三个角色拆分并设置权限隔离,攻击者就需要同时欺骗三个独立系统才能得手。

多 agent 安全架构应成为 RAG 系统的默认设计

这项研究传递的信号非常明确:在 RAG 系统中,安全不应该是一个事后附加的过滤层,而应该内嵌在系统架构中。Cordon-MAS 的三 agent 隔离模式虽然增加了系统复杂度,但它提供的安全保障是单 agent 方案无法企及的。随着 RAG 系统在金融、医疗、法律等高敏感场景中的部署越来越广泛,攻击者的动机和手段也会持续升级。与其在模型层面不断修补防御漏洞,不如从架构层面消除污染传播的路径。Cordon-MAS 提供了一个值得认真考虑的起点。


参考链接