北京大学 – 微软亚洲研究院联合实验室提交了一篇高效模型压缩方案论文,提出名为 MixT 的混合张量分解算法,把大模型推理时的内存占用直接降低 60%,同时把准确率回退控制在 1.5 个百分点以内。
研究问题
千亿级大模型推理的瓶颈一直是显存。一个 70B 参数模型在 FP16 精度下需要约 140GB 显存,得用四张 H100 才能装下完整权重。量化(INT8、INT4)是当前主流压缩路径,但量化对长上下文 reasoning 任务的精度损伤已经被多份工作记录在案。MixT 选择另一条路:直接对模型里的通用线性投影矩阵做张量分解,砍参数量,不动激活精度。
方法
- 核心机制:对 attention 投影矩阵和 FFN 矩阵分别用 Tucker 分解和 CP 分解,按层动态选择分解方式
- 混合策略:浅层(语法、词法处理为主)用更激进的 CP 分解,深层(语义、推理为主)用保守的 Tucker 分解
- 低秩约束:通过 SVD 截断把每层秩压到原 rank 的 30-50%,靠学习曲线自动定位最佳截断点
- 无需重训练:MixT 是 post-training 方法,对已有 checkpoint 一次性压缩后即可部署
结果解读
论文在 Llama-3 70B、Qwen2 72B、DeepSeek-V3 671B 三个开源模型上验证。在 MMLU、GSM8K、HumanEval 三项基准上,MixT 把推理显存从原始的 140GB 压到 56GB,准确率分别下降 1.2 / 1.4 / 1.1 个百分点。等效效果是把原本需要 4 张 H100 的部署降到 2 张就能跑。
论文第一作者、北大计算机学院博士生陈梓豪在 abstract 末尾给了一个具体的成本估算:”以 H100 现货租赁价 3 美元每小时计算,单实例每天部署成本从 288 美元降到 144 美元,对长期跑推理服务的企业是直接的现金流改善。”
微软亚研院首席研究员、论文通讯作者王晋东(Jindong Wang)在 X 上转发论文时补了一句:”量化和分解一直被当成两条互斥路径,MixT 想说的其实是它们可以叠加——分解先做,把矩阵规模降下来,再上 INT8 量化,理论上还能再省 30%。” 他没在论文里写这个组合实验,留作后续。

局限性
论文也承认两个 caveat。一是分解操作的额外计算开销在小 batch 推理场景下会吃掉一部分内存收益——小 batch 下 GPU 利用率本来就低,分解操作的 launch overhead 反而拉长延迟。二是 MoE 模型上的效果还没充分验证:Mixtral、DeepSeek-V3 这类专家路由架构里,每个专家矩阵单独分解会导致路由 entropy 上升,模型容易倒退到”专家平均化”状态,论文里只跑了 V3 的稠密层做对照。
对工程团队的实际意义在于:如果你正在用 70B 量级开源模型做企业内部部署,MixT 提供了一个不用改训练、不用换硬件、只动 inference pipeline 的省钱方案。代码已开源在 GitHub,按论文 README 跑一次压缩约 4-6 小时(70B 模型,单张 H100)。
参考链接