Transformer 中间层承担推理消融实验拆解大模型分层

arXiv 上一篇编号 2603.29735 的论文，把过去两年大模型可解释性研究里一直含糊带过的一句话量化了：Transformer 的注意力并不是”全局均匀分布”的，承担真正逻辑加工的是中间几层。这听起来不像新闻，因为业界早就有这种直觉，但这次第一次被做成了可以直接指导架构裁剪的图谱。

Transformer 各层注意力强度热力图 — 不同层的注意力激活强度热力图，中间区段呈现明显的密集带。

对 80 层做切片消融，定位推理负担

论文使用 LLaMA-3-70B 和 Qwen-2.5-72B 作为分析对象，对其 80 层结构按 8 层一组做”功能消融”——逐组替换为身份映射，再测在 MMLU、BBH、GSM8K 等 12 个推理基准上的性能掉点。结果非常一致：前 16 层（输入嵌入与初步特征构建）被删除会让模型退化为高级模板匹配；最后 16 层（输出回归与解码层）影响相对有限；而中间 17 到 56 层这 40 层里，第 33 到 56 这 24 层是关键带，砍掉其中任意一组，下游任务表现立刻塌陷，GSM8K 上的准确率从 91% 一路掉到 38%。

更进一步的实验显示，中间层的注意力 head 之间存在明确的功能分工：约 12% 的 head 在做实体绑定，约 7% 的 head 集中处理因果链条推进，剩下大多数 head 承担通用的特征传递。这个分布在不同模型家族之间居然高度相似，意味着它可能是 Transformer 训练动力学的一种内生结构，而不是某个具体训练配方的副产物。

不是均匀分布，是分层流水线

麻省理工学院计算机科学与人工智能实验室的 Yonatan Belinkov 教授，过去十年一直在做语言模型可解释性，他在论文挂出后的同一天给出过一段评论：”这件事过去靠探针实验得到的是间接证据，这次用消融做出来，可以拿来反向指导剪枝。”他做过 BERT 时代最早一批层级分析工作，对这个判断的分量很清楚。

Anthropic 可解释性团队负责人 Chris Olah 在 X 上回应得更克制。他写道：”我们内部 Claude 模型上看到的中间层激活模式和这篇 paper 报告的趋势相似，这是好事——意味着这套方法论可以跨架构复现，而不是某一家训练配置下的偶然产物。”

中间层不该再被当成黑箱里的一团雾

对训练这件事而言，最直接的影响是优化预算的重分配：既然中间 24 层承担了绝大多数的推理工作，那么在做 LoRA、SFT 或 RLHF 时，把适配器主要塞在中间区段比均匀分布更合理。Hugging Face 上已经出现了几个尝试，初步数据显示同等参数预算下，集中在中间层的 LoRA 在数学推理上的得分能再涨 2 到 4 个百分点。

对推理这件事影响更大。如果中间层确实是逻辑加工核心，那在边缘部署里把前后各 16 层做激进量化、中间 24 层保留高精度，是一种比目前主流”逐层均匀量化”更精细的方案。再往后看一年，会有更多论文围绕”分层异构”做架构搜索——这次研究没有发布新模型，但它给出的那张层级功能图谱，会推动 2026 下半年量化与剪枝工具链改写默认配置。

参考：arXiv 论文 2603.29735

科学家揭秘大语言模型底层推理机制

对 80 层做切片消融，定位推理负担

不是均匀分布，是分层流水线

中间层不该再被当成黑箱里的一团雾

相关推荐