微软的推理模型终于来了,但”干净数据”说服了谁?
微软在Build 2026开发者大会上正式发布了自研推理大模型MAI-Thinking-1。这是一个35B活跃参数、约1T总参数的稀疏MoE(混合专家)架构模型,支持256k token上下文窗口。微软官方定位为面向企业的推理模型,擅长多步骤指令、长上下文推理和代码生成。
模型的关键卖点之一是训练数据的”干净”属性。微软AI负责人Mustafa Suleyman公开表示,该模型”从头开始基于干净、商业授权的数据训练,不依赖第三方模型的蒸馏”。微软还声称在预训练阶段排除了AI生成内容。这一说法被The Decoder解读为”对其他实验室做法的不那么隐晦的暗讽”——矛头直指那些通过蒸馏GPT或Claude输出进行训练的竞争对手。
基准测试方面,微软给出的数据颇为亮眼:AIME 2025得分97.0%,AIME 2026得分94.5%,SWE-Bench Pro与Claude Opus 4.6持平。微软还声称在1276个任务的盲测中,人类评估者更偏好MAI-Thinking-1而非Anthropic的Sonnet 4.6。
基准成绩好看,但社区并不买账
然而,Hacker News上的讨论很快给这组数据泼了冷水。有开发者指出,MAI-Thinking-1的基准分数大约处于DeepSeek V3.2的水平,但后者使用的活跃参数更少。评论者直言:”基准成绩有点灾难?它大约是DeepSeek V3.2的水平,但参数多了约50%。面对同样更小的GLM-5.1和Kimi K2.6也完败。”
关于”干净数据”的说法也遭到了广泛质疑。多位开发者指出,在当今互联网环境下,完全排除AI生成内容”几乎不可能,除非只用前AI时代的数据”。有人怀疑所谓的”干净”实际上是指大规模抓取GitHub上的开源代码仓库——这在法律灰色地带行走。微软此前在Phi系列模型中曾倡导”高质量合成数据优于大规模原始语料”的路线,这让”排除AI生成内容”的说法显得前后矛盾。
SWE-Bench Pro基准本身也受到质疑。有评论者直接称之为”垃圾”,呼吁社区转向更贴近真实编码任务的DeepSWE等替代评测方案。
微软的反蒸馏立场勇敢但代价高昂
抛开争议,微软在这款模型上至少做了一个值得尊重的选择:公开拒绝蒸馏捷径。微软团队在技术报告中写道:”模仿者从根本上受制于其教师的设计选择。”这个立场在当前”蒸馏先行”的行业风气中确实显得少见。如果MAI-Thinking-1确实从零训练且没有借助其他模型的输出,那么它落后于那些”有老师教”的模型在某种程度上是意料之中的——这至少说明微软没有在数据来源上撒谎。
但问题在于,最终用户并不关心训练过程的纯洁性,只关心模型的实际表现。在微软Foundry平台上以私有预览形式推出的MAI-Thinking-1,如果无法在价格和性能上同时具备竞争力,”干净数据”的故事很难转化为企业客户的实际采购决策。毕竟,对于大多数企业来说,模型好用比模型”干净”重要得多。
参考链接: