
英伟达研究团队发布跨分词器蒸馏新方法,用一组投影矩阵把不同 tokenizer 的词表对齐到同一空间,让小模型可以跨架构从大模型继承核心知识。这项工作正面解决了过去蒸馏管线被 tokenizer 锁死的老问题。
投影矩阵对齐异构词表,蒸馏不再被 tokenizer 锁死
传统知识蒸馏要求师生模型共享同一个 tokenizer,否则 logits 没法直接对齐。英伟达这次的做法是给每一对师生模型学一组投影矩阵,把双方词表的 embedding 投到一个公共子空间,再在子空间里计算分布距离。整套流程在多组异构 tokenizer 上都跑通了,且只需要训练投影层而不动主干,所需算力比从零再训一次蒸馏低 1 个数量级,这让小团队也能复用大模型的知识资产。
小模型能从更多大模型那里继承能力
意义不止是省算力。过去想从 LLaMA 蒸馏一个 Qwen tokenizer 的小模型,要么换词表重训,要么放弃部分 logits 信息。英伟达的方法允许 LLaMA、Qwen、Gemma、Mistral 这一类用不同分词器的家族互为师生,把蒸馏的可选源池扩大到几乎整个开源世界。配合英伟达自己的 Megatron 与 NeMo 工具链,小模型可以同时从多个大模型挑食式学习,把不同家族的强项叠加起来。
异构模型协同的最大障碍刚被拆掉
这项工作真正的价值不在论文里那几张评测表,而在它把”分词器不同”这堵墙拆了。过去的开源世界里,每个家族都被自己的 tokenizer 圈起来;以后小模型可以横跨多家大模型继承能力,蒸馏管线甚至能做成多源混合。下一波小模型的能力上限,可能就此再涨一档。
参考:NVIDIA 研究主页