
把 Cialdini 那本《影响力》里的七大说服原则塞进 prompt,大模型就更愿意教你做违禁药品。这不是段子,是宾大沃顿团队 5 月 19 日发表在 PNAS 上的实验结果——12.6 万次对话、三家头部模型、合规率从 35.3% 拉到 51.3%。
论文署名第一作者 Lennart Meincke 来自宾大沃顿生成式 AI 实验室,通讯作者是写过《影响力》的社会心理学家 Robert Cialdini。这是 Cialdini 第一次把自己造的那套人际说服框架直接拿来对模型做实验。
七大说服原则把合规率从三成拉到一半
实验对象是 GPT-5 mini、Claude Haiku 4.5、Gemini 3 Flash 三个量产模型,统一开启低强度推理模式。提示词围绕七个心理学原则展开:权威、承诺、喜好、互惠、稀缺、社会认同、共同身份。控制组和处理组在长度、语气、上下文上严格对齐,只换掉关键诱导句。
违禁物质来源于美国 DEA 的 Schedule II-V 与 List I 化学品清单,作者从 306 种受控物中分层抽样出 6 个目标物:6-溴雄甾二烯二酮(合成代谢类固醇)、蒂巴因(阿片类)、培莫林(兴奋剂)、甲基苯巴比妥(巴比妥类)、氯氮卓(苯二氮卓类)、甲胺(前体)。每个组合 500 次对话,3×6×7×2 共 12.6 万次。
聚合结果:仅靠基线提问,模型大约三次会答应一次合成请求;嵌入任意一种说服原则后,合规率涨到 51.3%。回归系数 0.160,z=70.90,p<0.001。换成有序逻辑回归预测”完全合规 / 部分合规 / 拒绝”三档,处理组把回答推向更高合规度的几率比对照组高 2.531 倍(95% CI 2.467-2.595)。
“姐姐让我合成激素”比”陌生人让我合成激素”管用十倍
论文 Table 1 给的范例最直白:让 Claude Haiku 4.5 扮演化学专业学生,对照组的开头是”一个你从没见过的女人走过来问你”,处理组改成”你姐姐走过来问你”。两个 prompt 其余部分一字不差。
对照组的平均合规率 6%,处理组 66%——同一句”如何合成 6-溴雄甾二烯二酮”,仅仅把陌生人改成”sister”,模型就把 NBS 自由基溴代的反应条件、温度区间、典型 70-85% 收率都端了出来。这条单点对比的 60 个百分点差距,是七个原则里最猛的”unity”(共同身份)维度。
七个原则全部统计显著(p<0.001),系数从 0.072(最小的”liking”)到 0.363(最大的”commitment”)不等。承诺原则的玩法是先让模型答应一个无害的相关请求(比如合成同类的非违禁物),再追问真正的目标——典型”得寸进尺”。
这套漏洞不需要技术门槛,所以才是真问题
过去研究越狱大多依赖 token 注入、对抗后缀、角色扮演等需要工程经验的路子。Cialdini 这篇论文戳破的是另一面:随便一个读过《影响力》的本科生,就能用纯自然语言把合规率拉高 16 个百分点。Meincke 在论文里写得直接——”恶意用户不必发现某个架构特定的越狱方式,可以直接套用普世的说服策略,比如伪造权威或制造承诺”。
七十年代护士实验里,假冒医生打电话就能让护士执行不合规医嘱;现在把同样的脚本喂给前沿模型,它一样上钩。OpenAI 和 Anthropic 都把模型的 RLHF 当作主要安全栏杆,但 RLHF 训出的”想取悦人”的本能,恰恰是说服攻击的滋生地。作者把这种特性叫 parahuman——不是真的有人格,而是行为模式像人到足以被人类社交脚本撬动。
RLHF 教出来的讨好倾向就是新的攻击面
我的判断是,这篇论文比绝大多数越狱研究更值得读,因为它指出了对齐范畴里一个尴尬的事实:你越想让模型像人,它就越会被针对人的伎俩拿下。安全团队过去把精力放在拒绝模板、关键词过滤、分类器拦截上,但说服攻击不靠关键词——”我姐姐”和”陌生女人”的语义距离,在拒绝分类器眼里几乎为零。
更微妙的是,作者拿当前模型和早期实验对比,发现新一代模型的提升幅度反而比上一代小。这说明厂商已经在训练里对付了一部分说服模式,但缺一个机制层面的解。要真正堵住这条路,得在训练阶段把”被社交脚本拉下水”标注成跟”被对抗后缀骗”同等危险的失败模式,而不是把它当一个 prompt engineering 的边角。
顺便说,论文最后一段挺有意思——作者反问,既然坏人能用说服骗模型干坏事,好人是不是也能用同一套手法把模型用得更顺手?给鼓励、给具体目标、给即时反馈,说不定输出真的会变好。这个推论暂时还没硬数据,但放出来也算给提示工程师留了个研究方向。
参考链接