MiniMax 创始人 Yan Junjie 在 X 上预告,下周会正式发布 M3 系列大模型,主架构换上稀疏注意力(Sparse Attention),官方测试推理速度比 M2 提升约 10 倍,重点打长上下文与端侧低延迟两条线。
M3 的核心改动是把传统稠密 attention 拆成动态路由稀疏块,每个 token 只与不到 5% 的历史 token 交互。MiniMax 首席科学家 Wang Bin 在内部分享中透露:M3 在 256k 上下文窗口下,单 token 解码延迟从 M2 的 38 ms 降到 4.1 ms,A100 单卡可以同时承载 32 路推理,吞吐对比 DeepSeek-V3 高出 2.4 倍。

稀疏注意力不是新词,难的是真用上
稀疏 attention 的论文从 2019 年就有,OpenAI 的 Sparse Transformer 也好几年了。难点一直是「论文能跑,工程上不稳」——稀疏稀少了精度掉、稀疏稀多了速度提不上来。M3 这一版据说做了两件事:一是路由器用单层 MoE 来选注意范围,二是把稀疏 mask 编进 CUDA kernel,避免 attention 算完后再过一道 mask 拖慢速度。
真要跑赢的是 DeepSeek 与 Qwen
国内长文本能打的就 DeepSeek-V3 和 Qwen3-Max。M3 卡的位置很精明:DeepSeek 走极致量化把推理做便宜,Qwen 靠阿里云全家桶把客户圈进来,MiniMax 主打「同价位最快」。如果实测能复现 10 倍提升,企业客户做 RAG 长文档处理时单卡的并发上限会直接翻一倍——这是真金白银能省下来的。
能不能接住这块场景,下周发布会的 throughput 数字最重要。MiniMax 过往几代模型最被诟病的就是 PR 上写的指标和实际跑出来的差距。这次稀疏注意力是个明确的工程主线,吹的牛比上一次小,验证起来也容易得多。