MixT 张量分解方案让 70B 模型推理显存暴降 60%

北京大学 – 微软亚洲研究院联合实验室提交了一篇高效模型压缩方案论文，提出名为 MixT 的混合张量分解算法，把大模型推理时的内存占用直接降低 60%，同时把准确率回退控制在 1.5 个百分点以内。

研究问题

千亿级大模型推理的瓶颈一直是显存。一个 70B 参数模型在 FP16 精度下需要约 140GB 显存，得用四张 H100 才能装下完整权重。量化（INT8、INT4）是当前主流压缩路径，但量化对长上下文 reasoning 任务的精度损伤已经被多份工作记录在案。MixT 选择另一条路：直接对模型里的通用线性投影矩阵做张量分解，砍参数量，不动激活精度。

方法

核心机制：对 attention 投影矩阵和 FFN 矩阵分别用 Tucker 分解和 CP 分解，按层动态选择分解方式
混合策略：浅层（语法、词法处理为主）用更激进的 CP 分解，深层（语义、推理为主）用保守的 Tucker 分解
低秩约束：通过 SVD 截断把每层秩压到原 rank 的 30-50%，靠学习曲线自动定位最佳截断点
无需重训练：MixT 是 post-training 方法，对已有 checkpoint 一次性压缩后即可部署

结果解读

论文在 Llama-3 70B、Qwen2 72B、DeepSeek-V3 671B 三个开源模型上验证。在 MMLU、GSM8K、HumanEval 三项基准上，MixT 把推理显存从原始的 140GB 压到 56GB，准确率分别下降 1.2 / 1.4 / 1.1 个百分点。等效效果是把原本需要 4 张 H100 的部署降到 2 张就能跑。

论文第一作者、北大计算机学院博士生陈梓豪在 abstract 末尾给了一个具体的成本估算：”以 H100 现货租赁价 3 美元每小时计算，单实例每天部署成本从 288 美元降到 144 美元，对长期跑推理服务的企业是直接的现金流改善。”

微软亚研院首席研究员、论文通讯作者王晋东（Jindong Wang）在 X 上转发论文时补了一句：”量化和分解一直被当成两条互斥路径，MixT 想说的其实是它们可以叠加——分解先做，把矩阵规模降下来，再上 INT8 量化，理论上还能再省 30%。” 他没在论文里写这个组合实验，留作后续。

MixT 通用张量模型压缩方案 — MixT 通过混合张量分解把大模型推理显存压缩 60%。

局限性

论文也承认两个 caveat。一是分解操作的额外计算开销在小 batch 推理场景下会吃掉一部分内存收益——小 batch 下 GPU 利用率本来就低，分解操作的 launch overhead 反而拉长延迟。二是 MoE 模型上的效果还没充分验证：Mixtral、DeepSeek-V3 这类专家路由架构里，每个专家矩阵单独分解会导致路由 entropy 上升，模型容易倒退到”专家平均化”状态，论文里只跑了 V3 的稠密层做对照。

对工程团队的实际意义在于：如果你正在用 70B 量级开源模型做企业内部部署，MixT 提供了一个不用改训练、不用换硬件、只动 inference pipeline 的省钱方案。代码已开源在 GitHub，按论文 README 跑一次压缩约 4-6 小时（70B 模型，单张 H100）。

参考链接

高效模型压缩方案

团队推出通用张量模型压缩方案 MixT

研究问题

方法

结果解读

局限性

相关推荐