科学家揭秘大语言模型底层推理机制

AI资讯

arXiv 上一篇编号 2603.29735 的论文,把过去两年大模型可解释性研究里一直含糊带过的一句话量化了:Transformer 的注意力并不是”全局均匀分布”的,承担真正逻辑加工的是中间几层。这听起来不像新闻,因为业界早就有这种直觉,但这次第一次被做成了可以直接指导架构裁剪的图谱。

Transformer 各层注意力强度热力图
不同层的注意力激活强度热力图,中间区段呈现明显的密集带。

对 80 层做切片消融,定位推理负担

论文使用 LLaMA-3-70B 和 Qwen-2.5-72B 作为分析对象,对其 80 层结构按 8 层一组做”功能消融”——逐组替换为身份映射,再测在 MMLU、BBH、GSM8K 等 12 个推理基准上的性能掉点。结果非常一致:前 16 层(输入嵌入与初步特征构建)被删除会让模型退化为高级模板匹配;最后 16 层(输出回归与解码层)影响相对有限;而中间 17 到 56 层这 40 层里,第 33 到 56 这 24 层是关键带,砍掉其中任意一组,下游任务表现立刻塌陷,GSM8K 上的准确率从 91% 一路掉到 38%。

更进一步的实验显示,中间层的注意力 head 之间存在明确的功能分工:约 12% 的 head 在做实体绑定,约 7% 的 head 集中处理因果链条推进,剩下大多数 head 承担通用的特征传递。这个分布在不同模型家族之间居然高度相似,意味着它可能是 Transformer 训练动力学的一种内生结构,而不是某个具体训练配方的副产物。

不是均匀分布,是分层流水线

麻省理工学院计算机科学与人工智能实验室的 Yonatan Belinkov 教授,过去十年一直在做语言模型可解释性,他在论文挂出后的同一天给出过一段评论:”这件事过去靠探针实验得到的是间接证据,这次用消融做出来,可以拿来反向指导剪枝。”他做过 BERT 时代最早一批层级分析工作,对这个判断的分量很清楚。

Anthropic 可解释性团队负责人 Chris Olah 在 X 上回应得更克制。他写道:”我们内部 Claude 模型上看到的中间层激活模式和这篇 paper 报告的趋势相似,这是好事——意味着这套方法论可以跨架构复现,而不是某一家训练配置下的偶然产物。”

中间层不该再被当成黑箱里的一团雾

对训练这件事而言,最直接的影响是优化预算的重分配:既然中间 24 层承担了绝大多数的推理工作,那么在做 LoRA、SFT 或 RLHF 时,把适配器主要塞在中间区段比均匀分布更合理。Hugging Face 上已经出现了几个尝试,初步数据显示同等参数预算下,集中在中间层的 LoRA 在数学推理上的得分能再涨 2 到 4 个百分点。

对推理这件事影响更大。如果中间层确实是逻辑加工核心,那在边缘部署里把前后各 16 层做激进量化、中间 24 层保留高精度,是一种比目前主流”逐层均匀量化”更精细的方案。再往后看一年,会有更多论文围绕”分层异构”做架构搜索——这次研究没有发布新模型,但它给出的那张层级功能图谱,会推动 2026 下半年量化与剪枝工具链改写默认配置。


参考:arXiv 论文 2603.29735