RL 比 SFT 更好保留电路记忆:研究提出电路脆弱性指标

AI资讯
电路脆弱性指标示意图
电路脆弱性指标用于度量微调对模型内部回路的损伤

一篇刚挂上 arXiv 的大模型遗忘机制研究给出了反直觉的结论:监督微调 SFT 比强化学习 RL 更容易破坏模型已经学到的内部回路。研究团队提出了一个新的度量——”电路脆弱性指标”,用来量化每一次微调步骤对原有计算路径的损伤幅度。论文作者在引言里直言:”灾难性遗忘并不是均匀发生的,它沿着最脆弱的电路先崩。”

电路脆弱性指标怎么算

研究团队把模型在原任务上识别出来的关键路径标注为”电路”,记录每条电路的激活强度和注意力权重。微调一轮之后再对照同一批样本,看哪些电路的激活值跌出了阈值。指标用 0 到 1 之间的浮点数表示:0 代表电路完全保留,1 代表电路被改写。在 7B 的开源底座上,SFT 跑完 3 个 epoch 后平均脆弱性达到 0.62,而同等任务下 RL 仅为 0.27,差距超过两倍。更关键的是,SFT 受损最严重的是数学推理与代码生成相关的电路,而这些恰恰是大模型最难重新训练出来的能力。

为什么 RL 反而更温和

团队的解释是,SFT 直接对每个 token 做交叉熵回归,梯度会沿着输出概率分布的最大方向反向传播,覆盖性极强;RL 用奖励信号驱动,只在产出整段文本之后给一次粗粒度回报,更新方向更稀疏,对底层电路的”惊扰”也更小。论文还跑了一组对照:把 SFT 的学习率压低十倍后,电路脆弱性确实掉到了 0.31,但训练成本随之翻了三倍,性价比堪忧。这与社区里”RL 慢但稳”的经验吻合,也解释了为什么 OpenAI、Anthropic 等团队偏爱在后训练阶段重度使用 RLHF 与 RLAIF。

SFT 不是不能用,是不能贪

电路脆弱性指标的真正意义在于让微调团队第一次有了”刹车”信号。过去判断 SFT 是否过头只能靠下游评测,而下游评测往往要等模型彻底废掉才看得出来。现在这套指标可以在每个 epoch 结束时给出实时读数,超过 0.5 就该停下来。SFT 仍然是最便宜、最容易上手的微调手段,但需要承认它擅长的是表层格式与风格的对齐,而不是知识结构的迁移。把模型核心能力交给 RL,把表面礼仪交给 SFT,可能是接下来一段时间最合理的分工。


参考:arXiv 大模型遗忘研究