
研发团队推出 AgentDoG 1.5 智能体安全对齐框架,仅用千级样本就能完成轻量化对齐,安全表现可媲美顶尖闭源模型。沙箱部署成本同步下降约 100 倍,让中小研究团队也能负担得起严肃的智能体安全实验。
千样本完成对齐,性能逼近闭源
AgentDoG 1.5 把对齐数据量打进了千级别。论文给出的实验里,框架仅用约 1000 条精筛样本,就在多类越狱、提示注入、工具滥用基准上拿到与顶尖闭源模型相近的拒答率与稳健性。相比传统对齐管线动辄几十万条数据加多轮 RLHF,这套方案对算力的需求被压到一个 8 卡机器一天能跑完的量级,对小团队尤其友好。
沙箱成本压低 100 倍,对齐进入”小作坊”档
另一个被强调的卖点是部署成本。框架自带的沙箱组件把容器、虚拟网络、审计日志这些固定开销做了统一抽象,论文报告的对齐加评测全流程成本相比上一代下降约两个数量级。这意味着高校实验室、小型开源团队也能在一台普通服务器上完整跑起一套智能体安全实验。对比之下,闭源大厂内部的对齐 pipeline 一直被运行成本卡得很死,外部研究者很难复现。
智能体安全研究的门槛刚刚被一次性打下来
过去做智能体对齐的真正门槛不是论文里的算法,而是数据规模和沙箱预算这两道工程墙。AgentDoG 1.5 把它们同时打薄之后,开源社区第一次有可能像当年跟进微调那样,密集追上闭源对齐的进度。下半年开源圈的安全工作量大概率会出现一波集中爆发,新一轮 benchmark 也会随之刷新。