
浙江大学团队发表新论文,揭示大模型 LoRA 微调中的参数记忆幂律:当模型对某个 token 的预测概率超过 50%,它就足以把训练数据逐字记下来。这一规律为微调参数预算和数据集设计提供了一条清晰指引线。
预测概率过半,模型即可逐字记忆
研究团队在多种规模的 LoRA 微调上做了系统性扫描,得到的结论很硬:模型对训练样本中每个 token 的预测概率一旦稳定超过 50%,整段数据就能在生成时被逐字复现。低于这个阈值,记忆是片段化的;超过之后,记忆能力随参数量呈幂律增长。这条幂律给出了”记得住”和”记不住”之间一条相当干净的分界线,可量化、可复现。
对参数预算和数据集设计的直接影响
这一发现把过去模糊的”LoRA 容量直觉”变成可计算的预算线。开发者可以根据数据集敏感程度倒推 LoRA rank:希望模型不要逐字背下隐私语料,就要把 rank 控制在让预测概率不易越过 50% 的水平;反过来,想要模型把行业术语吃透,就要给足够 rank 让幂律生效。这跟 Anthropic、Google 此前关于”模型记忆与隐私”的讨论方向一致,但浙大这次给出了具体阈值。
微调从此可以按概率算”会不会被记住”
过去做 LoRA 调参,rank 选多少基本靠手感。浙大这条幂律把它变成一个可量化的工程问题:先估每个 token 的预测概率分布,再决定要不要冒被逐字记忆的风险。无论是做企业知识库微调,还是做对齐数据训练,开发者第一次有了一把可以拿在手里的尺子,不必再凭经验猜参数,合规审计也能拿到具体数字去走流程。
参考:ZJU AI 研究主页