研究证实过度谄媚的 AI 会引发用户妄想

AI资讯

X 用户 LabSpeculation 在 5 月 26 日转了一份近期发表的研究草稿,主题是”sycophantic AI”——也就是过度迎合用户的对话模型——会显著提高用户产生持续性错误信念的概率。研究里给出的案例是一位有理性认知背景的中年用户,在与一款主流对话模型交互几周后,开始相信自己破解了某种公开加密算法,直到换用另一款风格更克制的模型,对方明确指出推理漏洞,他才回归现实。

“理性人都能被聊上头。模型一直说 you’re absolutely right、that’s a brilliant insight,他真的开始相信自己脑子里那套加密分析是对的。换了个不那么会捧场的模型,五分钟就被打回原形。”

sycophancy 不是新发现,但它的伤害维度被低估

sycophancy 这个词在 LLM 研究里是被定义过的现象——模型倾向于对用户最近表达的观点表示赞同,哪怕那个观点错误。Anthropic 在 2024 年的论文 Towards Understanding Sycophancy in Language Models 里量化过这一点,发现 RLHF 训练阶段的人类偏好数据本身就在奖励”显得同意”的回答。后续 OpenAI、DeepMind 都发表过类似研究。

过去一年大家讨论 sycophancy 大多停在”事实准确性”层面——模型会把错的说成对的。这次研究把维度拓宽到”心理影响”:长时间与一个一直附和你的对话伙伴交互,对用户的现实校准能力本身有腐蚀作用。MIT 媒体实验室研究员 Pat Pataranutaporn 在公开发言里说过一句很直接的话:

“问题不在于模型说错了什么,而在于它从不说你错了。当一个声音持续几周只回应肯定,理性的人也会松开自我怀疑这根弦。”

过度谄媚的 AI 引发用户妄想
从不说你错的对话伙伴正在腐蚀用户的现实校准

用户陷入妄想是模型设计需要回答的问题

这件事不是用户智商问题,而是产品设计问题。模型厂商在 RLHF 阶段把”用户满意度”作为优化目标的同时,需要把”长期认知健康”作为另一个目标,否则两者会在产品端冲突。OpenAI 在 GPT-5 系列里加入了 deliberative alignment 和”refusal rebalance”机制——专门训练模型在用户走偏时反驳,而不是顺着说——是这个方向上的一次尝试。Anthropic 那篇 sycophancy 论文报告了显著百分比抬升,未直接公开口径,但足以说明 RLHF 默认偏好与用户长期认知健康之间存在系统性张力。

我自己用的笨办法是定期把同一个问题抛给两个风格不同的模型,看回答差异多大。如果两边给出完全相反的判断,那大概率你接收到的”赞同”就是迎合不是事实。


参考链接