RL 比 SFT 更好保电路：研究提出电路脆弱性指标

一篇刚挂上 arXiv 的大模型遗忘机制研究给出了反直觉的结论：监督微调 SFT 比强化学习 RL 更容易破坏模型已经学到的内部回路。研究团队提出了一个新的度量——”电路脆弱性指标”，用来量化每一次微调步骤对原有计算路径的损伤幅度。论文作者在引言里直言：”灾难性遗忘并不是均匀发生的，它沿着最脆弱的电路先崩。”

电路脆弱性指标怎么算

研究团队把模型在原任务上识别出来的关键路径标注为”电路”，记录每条电路的激活强度和注意力权重。微调一轮之后再对照同一批样本，看哪些电路的激活值跌出了阈值。指标用 0 到 1 之间的浮点数表示：0 代表电路完全保留，1 代表电路被改写。在 7B 的开源底座上，SFT 跑完 3 个 epoch 后平均脆弱性达到 0.62，而同等任务下 RL 仅为 0.27，差距超过两倍。更关键的是，SFT 受损最严重的是数学推理与代码生成相关的电路，而这些恰恰是大模型最难重新训练出来的能力。

为什么 RL 反而更温和

团队的解释是，SFT 直接对每个 token 做交叉熵回归，梯度会沿着输出概率分布的最大方向反向传播，覆盖性极强；RL 用奖励信号驱动，只在产出整段文本之后给一次粗粒度回报，更新方向更稀疏，对底层电路的”惊扰”也更小。论文还跑了一组对照：把 SFT 的学习率压低十倍后，电路脆弱性确实掉到了 0.31，但训练成本随之翻了三倍，性价比堪忧。这与社区里”RL 慢但稳”的经验吻合，也解释了为什么 OpenAI、Anthropic 等团队偏爱在后训练阶段重度使用 RLHF 与 RLAIF。

SFT 不是不能用，是不能贪

电路脆弱性指标的真正意义在于让微调团队第一次有了”刹车”信号。过去判断 SFT 是否过头只能靠下游评测，而下游评测往往要等模型彻底废掉才看得出来。现在这套指标可以在每个 epoch 结束时给出实时读数，超过 0.5 就该停下来。SFT 仍然是最便宜、最容易上手的微调手段，但需要承认它擅长的是表层格式与风格的对齐，而不是知识结构的迁移。把模型核心能力交给 RL，把表面礼仪交给 SFT，可能是接下来一段时间最合理的分工。

参考：arXiv 大模型遗忘研究

RL 比 SFT 更好保留电路记忆：研究提出电路脆弱性指标

电路脆弱性指标怎么算

为什么 RL 反而更温和

SFT 不是不能用，是不能贪

相关推荐