英伟达跨分词器蒸馏：投影矩阵打通异构 tokenizer

英伟达研究团队发布跨分词器蒸馏新方法，用一组投影矩阵把不同 tokenizer 的词表对齐到同一空间，让小模型可以跨架构从大模型继承核心知识。这项工作正面解决了过去蒸馏管线被 tokenizer 锁死的老问题。

投影矩阵对齐异构词表，蒸馏不再被 tokenizer 锁死

传统知识蒸馏要求师生模型共享同一个 tokenizer，否则 logits 没法直接对齐。英伟达这次的做法是给每一对师生模型学一组投影矩阵，把双方词表的 embedding 投到一个公共子空间，再在子空间里计算分布距离。整套流程在多组异构 tokenizer 上都跑通了，且只需要训练投影层而不动主干，所需算力比从零再训一次蒸馏低 1 个数量级，这让小团队也能复用大模型的知识资产。

小模型能从更多大模型那里继承能力

意义不止是省算力。过去想从 LLaMA 蒸馏一个 Qwen tokenizer 的小模型，要么换词表重训，要么放弃部分 logits 信息。英伟达的方法允许 LLaMA、Qwen、Gemma、Mistral 这一类用不同分词器的家族互为师生，把蒸馏的可选源池扩大到几乎整个开源世界。配合英伟达自己的 Megatron 与 NeMo 工具链，小模型可以同时从多个大模型挑食式学习，把不同家族的强项叠加起来。

异构模型协同的最大障碍刚被拆掉

这项工作真正的价值不在论文里那几张评测表，而在它把”分词器不同”这堵墙拆了。过去的开源世界里，每个家族都被自己的 tokenizer 圈起来；以后小模型可以横跨多家大模型继承能力，蒸馏管线甚至能做成多源混合。下一波小模型的能力上限，可能就此再涨一档。

参考：NVIDIA 研究主页

英伟达发布跨分词器蒸馏：投影矩阵让小模型跨架构学

投影矩阵对齐异构词表，蒸馏不再被 tokenizer 锁死

小模型能从更多大模型那里继承能力

异构模型协同的最大障碍刚被拆掉

相关推荐