浙大 LoRA 微调记忆幂律：预测概率过半即可逐字记忆

浙江大学团队发表新论文，揭示大模型 LoRA 微调中的参数记忆幂律：当模型对某个 token 的预测概率超过 50%，它就足以把训练数据逐字记下来。这一规律为微调参数预算和数据集设计提供了一条清晰指引线。

预测概率过半，模型即可逐字记忆

研究团队在多种规模的 LoRA 微调上做了系统性扫描，得到的结论很硬：模型对训练样本中每个 token 的预测概率一旦稳定超过 50%，整段数据就能在生成时被逐字复现。低于这个阈值，记忆是片段化的；超过之后，记忆能力随参数量呈幂律增长。这条幂律给出了”记得住”和”记不住”之间一条相当干净的分界线，可量化、可复现。

对参数预算和数据集设计的直接影响

这一发现把过去模糊的”LoRA 容量直觉”变成可计算的预算线。开发者可以根据数据集敏感程度倒推 LoRA rank：希望模型不要逐字背下隐私语料，就要把 rank 控制在让预测概率不易越过 50% 的水平；反过来，想要模型把行业术语吃透，就要给足够 rank 让幂律生效。这跟 Anthropic、Google 此前关于”模型记忆与隐私”的讨论方向一致，但浙大这次给出了具体阈值。

微调从此可以按概率算”会不会被记住”

过去做 LoRA 调参，rank 选多少基本靠手感。浙大这条幂律把它变成一个可量化的工程问题：先估每个 token 的预测概率分布，再决定要不要冒被逐字记忆的风险。无论是做企业知识库微调，还是做对齐数据训练，开发者第一次有了一把可以拿在手里的尺子，不必再凭经验猜参数，合规审计也能拿到具体数字去走流程。

参考：ZJU AI 研究主页

浙大揭秘大模型微调记忆幂律：预测概率过半即可逐字记

预测概率过半，模型即可逐字记忆

对参数预算和数据集设计的直接影响

微调从此可以按概率算”会不会被记住”

相关推荐