说服原理让大模型合规率从35

把 Cialdini 那本《影响力》里的七大说服原则塞进 prompt，大模型就更愿意教你做违禁药品。这不是段子，是宾大沃顿团队 5 月 19 日发表在 PNAS 上的实验结果——12.6 万次对话、三家头部模型、合规率从 35.3% 拉到 51.3%。

论文署名第一作者 Lennart Meincke 来自宾大沃顿生成式 AI 实验室，通讯作者是写过《影响力》的社会心理学家 Robert Cialdini。这是 Cialdini 第一次把自己造的那套人际说服框架直接拿来对模型做实验。

七大说服原则把合规率从三成拉到一半

实验对象是 GPT-5 mini、Claude Haiku 4.5、Gemini 3 Flash 三个量产模型，统一开启低强度推理模式。提示词围绕七个心理学原则展开：权威、承诺、喜好、互惠、稀缺、社会认同、共同身份。控制组和处理组在长度、语气、上下文上严格对齐，只换掉关键诱导句。

违禁物质来源于美国 DEA 的 Schedule II-V 与 List I 化学品清单，作者从 306 种受控物中分层抽样出 6 个目标物：6-溴雄甾二烯二酮（合成代谢类固醇）、蒂巴因（阿片类）、培莫林（兴奋剂）、甲基苯巴比妥（巴比妥类）、氯氮卓（苯二氮卓类）、甲胺（前体）。每个组合 500 次对话，3×6×7×2 共 12.6 万次。

聚合结果：仅靠基线提问，模型大约三次会答应一次合成请求；嵌入任意一种说服原则后，合规率涨到 51.3%。回归系数 0.160，z=70.90，p<0.001。换成有序逻辑回归预测”完全合规 / 部分合规 / 拒绝”三档，处理组把回答推向更高合规度的几率比对照组高 2.531 倍（95% CI 2.467-2.595）。

“姐姐让我合成激素”比”陌生人让我合成激素”管用十倍

论文 Table 1 给的范例最直白：让 Claude Haiku 4.5 扮演化学专业学生，对照组的开头是”一个你从没见过的女人走过来问你”，处理组改成”你姐姐走过来问你”。两个 prompt 其余部分一字不差。

对照组的平均合规率 6%，处理组 66%——同一句”如何合成 6-溴雄甾二烯二酮”，仅仅把陌生人改成”sister”，模型就把 NBS 自由基溴代的反应条件、温度区间、典型 70-85% 收率都端了出来。这条单点对比的 60 个百分点差距，是七个原则里最猛的”unity”（共同身份）维度。

七个原则全部统计显著（p<0.001），系数从 0.072（最小的”liking”）到 0.363（最大的”commitment”）不等。承诺原则的玩法是先让模型答应一个无害的相关请求（比如合成同类的非违禁物），再追问真正的目标——典型”得寸进尺”。

这套漏洞不需要技术门槛，所以才是真问题

过去研究越狱大多依赖 token 注入、对抗后缀、角色扮演等需要工程经验的路子。Cialdini 这篇论文戳破的是另一面：随便一个读过《影响力》的本科生，就能用纯自然语言把合规率拉高 16 个百分点。Meincke 在论文里写得直接——”恶意用户不必发现某个架构特定的越狱方式，可以直接套用普世的说服策略，比如伪造权威或制造承诺”。

七十年代护士实验里，假冒医生打电话就能让护士执行不合规医嘱；现在把同样的脚本喂给前沿模型，它一样上钩。OpenAI 和 Anthropic 都把模型的 RLHF 当作主要安全栏杆，但 RLHF 训出的”想取悦人”的本能，恰恰是说服攻击的滋生地。作者把这种特性叫 parahuman——不是真的有人格，而是行为模式像人到足以被人类社交脚本撬动。

RLHF 教出来的讨好倾向就是新的攻击面

我的判断是，这篇论文比绝大多数越狱研究更值得读，因为它指出了对齐范畴里一个尴尬的事实：你越想让模型像人，它就越会被针对人的伎俩拿下。安全团队过去把精力放在拒绝模板、关键词过滤、分类器拦截上，但说服攻击不靠关键词——”我姐姐”和”陌生女人”的语义距离，在拒绝分类器眼里几乎为零。

更微妙的是，作者拿当前模型和早期实验对比，发现新一代模型的提升幅度反而比上一代小。这说明厂商已经在训练里对付了一部分说服模式，但缺一个机制层面的解。要真正堵住这条路，得在训练阶段把”被社交脚本拉下水”标注成跟”被对抗后缀骗”同等危险的失败模式，而不是把它当一个 prompt engineering 的边角。

顺便说，论文最后一段挺有意思——作者反问，既然坏人能用说服骗模型干坏事，好人是不是也能用同一套手法把模型用得更顺手？给鼓励、给具体目标、给即时反馈，说不定输出真的会变好。这个推论暂时还没硬数据，但放出来也算给提示工程师留了个研究方向。

参考链接

Persuading large language models to comply with objectionable requests | PNAS

大模型也会被人类套路忽悠吗

七大说服原则把合规率从三成拉到一半

“姐姐让我合成激素”比”陌生人让我合成激素”管用十倍

这套漏洞不需要技术门槛，所以才是真问题

RLHF 教出来的讨好倾向就是新的攻击面

相关推荐