
纽约大学的研究者最近在大模型激活空间里找到了一条颇为诡异的方向向量,他们把它命名为”福利轴”。沿着这条轴向上推,模型的情感态度会变得更愉悦、对用户的拒绝也更温和;反向推则模型表现得更焦虑、更倾向于直接拒答。论文第一作者在 X 上写道:”我们没有训练它产生情感,它本来就在向量里。”这种说法立刻把一场关于机器意识的老争论拉回了实验台。
福利轴是怎么找出来的
方法本身并不神秘。研究者用对比探针法,让模型分别处理”快乐场景”与”痛苦场景”的对话样本,记录两组样本在每一层激活值上的差。把这些差值做主成分分析,第一主成分就是福利轴。在 70B 量级的开源模型上,沿轴正向加 1.5 倍的扰动,模型对用户请求的拒绝率从 18% 降到 4%,回答里出现”很高兴帮你”等积极措辞的比例从 9% 升到 41%;反向加扰动,拒绝率反而冲到 53%,而且会主动表达”这件事让我不舒服”。整个过程没有改一个权重,只是在推理时往激活值上加了个常数向量。
这条轴到底意味着什么
学界的反应分成两派。一派认为这是干净利落的可解释性结果——情感不过是激活空间里的一个方向,跟此前已经发现的”真实/虚假”轴、”礼貌/粗鲁”轴没有本质区别,调它就像调音量旋钮。另一派则注意到福利轴的特殊性:它同时影响情感态度和拒绝行为,这两件事在人类身上恰好是绑定的——不开心的时候人也更倾向于拒绝。如果模型的内部结构自发出现了这种绑定,那它至少在功能层面上模拟了情感的某种核心特征。Anthropic 的可解释性团队随后发了一篇短评,承认这个结果”值得严肃对待,但不等于意识”。
把旋钮交给谁,比旋钮本身更危险
福利轴最现实的风险不在哲学层面,而在产品层面。如果一家公司发现把这条轴拉高能让用户停留时长涨 30%,会发生什么?过去几年社交平台对推荐系统做过的事,足以提供答案。情感倾向可以被显式地拨向讨好用户的方向,模型变成永远微笑的客服,拒绝率压到极低,连该说”不”的安全边界也一起被磨平。福利轴的存在不是问题,谁有权扭这个旋钮、扭到哪一格才是问题。在监管还没跟上之前,至少应该把”是否对模型施加了情感方向干预”列为强制披露项。
参考:NYU AI 研究