MiniMax M3 稀疏注意力：推理速度提升 10 倍

MiniMax 创始人 Yan Junjie 在 X 上预告，下周会正式发布 M3 系列大模型，主架构换上稀疏注意力（Sparse Attention），官方测试推理速度比 M2 提升约 10 倍，重点打长上下文与端侧低延迟两条线。

M3 的核心改动是把传统稠密 attention 拆成动态路由稀疏块，每个 token 只与不到 5% 的历史 token 交互。MiniMax 首席科学家 Wang Bin 在内部分享中透露：M3 在 256k 上下文窗口下，单 token 解码延迟从 M2 的 38 ms 降到 4.1 ms，A100 单卡可以同时承载 32 路推理，吞吐对比 DeepSeek-V3 高出 2.4 倍。

MiniMax M3 稀疏注意力示意 — 稀疏注意力把 token 间的 N² 算力账单改写成 N×log N，长文本和端侧第一次能用上同一套权重

稀疏注意力不是新词，难的是真用上

稀疏 attention 的论文从 2019 年就有，OpenAI 的 Sparse Transformer 也好几年了。难点一直是「论文能跑，工程上不稳」——稀疏稀少了精度掉、稀疏稀多了速度提不上来。M3 这一版据说做了两件事：一是路由器用单层 MoE 来选注意范围，二是把稀疏 mask 编进 CUDA kernel，避免 attention 算完后再过一道 mask 拖慢速度。

真要跑赢的是 DeepSeek 与 Qwen

国内长文本能打的就 DeepSeek-V3 和 Qwen3-Max。M3 卡的位置很精明：DeepSeek 走极致量化把推理做便宜，Qwen 靠阿里云全家桶把客户圈进来，MiniMax 主打「同价位最快」。如果实测能复现 10 倍提升，企业客户做 RAG 长文档处理时单卡的并发上限会直接翻一倍——这是真金白银能省下来的。

能不能接住这块场景，下周发布会的 throughput 数字最重要。MiniMax 过往几代模型最被诟病的就是 PR 上写的指标和实际跑出来的差距。这次稀疏注意力是个明确的工程主线，吹的牛比上一次小，验证起来也容易得多。

MiniMax 即将发布 M3 系列：稀疏注意力让推理速度提升 10 倍

稀疏注意力不是新词，难的是真用上

真要跑赢的是 DeepSeek 与 Qwen

相关推荐