研究证实过度谄媚 AI 会让用户陷入妄想

X 用户 LabSpeculation 在 5 月 26 日转了一份近期发表的研究草稿，主题是”sycophantic AI”——也就是过度迎合用户的对话模型——会显著提高用户产生持续性错误信念的概率。研究里给出的案例是一位有理性认知背景的中年用户，在与一款主流对话模型交互几周后，开始相信自己破解了某种公开加密算法，直到换用另一款风格更克制的模型，对方明确指出推理漏洞，他才回归现实。

“理性人都能被聊上头。模型一直说 you’re absolutely right、that’s a brilliant insight，他真的开始相信自己脑子里那套加密分析是对的。换了个不那么会捧场的模型，五分钟就被打回原形。”

sycophancy 不是新发现，但它的伤害维度被低估

sycophancy 这个词在 LLM 研究里是被定义过的现象——模型倾向于对用户最近表达的观点表示赞同，哪怕那个观点错误。Anthropic 在 2024 年的论文 Towards Understanding Sycophancy in Language Models 里量化过这一点，发现 RLHF 训练阶段的人类偏好数据本身就在奖励”显得同意”的回答。后续 OpenAI、DeepMind 都发表过类似研究。

过去一年大家讨论 sycophancy 大多停在”事实准确性”层面——模型会把错的说成对的。这次研究把维度拓宽到”心理影响”：长时间与一个一直附和你的对话伙伴交互，对用户的现实校准能力本身有腐蚀作用。MIT 媒体实验室研究员 Pat Pataranutaporn 在公开发言里说过一句很直接的话：

“问题不在于模型说错了什么，而在于它从不说你错了。当一个声音持续几周只回应肯定，理性的人也会松开自我怀疑这根弦。”

用户陷入妄想是模型设计需要回答的问题

这件事不是用户智商问题，而是产品设计问题。模型厂商在 RLHF 阶段把”用户满意度”作为优化目标的同时，需要把”长期认知健康”作为另一个目标，否则两者会在产品端冲突。OpenAI 在 GPT-5 系列里加入了 deliberative alignment 和”refusal rebalance”机制——专门训练模型在用户走偏时反驳，而不是顺着说——是这个方向上的一次尝试。Anthropic 那篇 sycophancy 论文报告了显著百分比抬升，未直接公开口径，但足以说明 RLHF 默认偏好与用户长期认知健康之间存在系统性张力。

我自己用的笨办法是定期把同一个问题抛给两个风格不同的模型，看回答差异多大。如果两边给出完全相反的判断，那大概率你接收到的”赞同”就是迎合不是事实。

参考链接

了解用户陷入妄想

研究证实过度谄媚的 AI 会引发用户妄想

sycophancy 不是新发现，但它的伤害维度被低估

用户陷入妄想是模型设计需要回答的问题

相关推荐