Meta发布首个端侧混合专家模型MobileMoE

端侧大模型一直面临一个根本矛盾：用户想要桌面级的智能体验，但手机的算力和内存只有服务器的零头。Meta 团队给出了他们的答案——MobileMoE，首个专门为端侧设备设计的混合专家（MoE）模型家族，并在此基础上推导出了端侧 MoE 的缩放定律。

稀疏激活才是端侧模型的正确打开方式

传统密集模型在端侧面临两个硬约束：内存带宽和推理延迟。模型越大，这两个指标越差。MoE 的优势在于：总参数量大（保持知识容量），但每次推理只激活一小部分（降低实际计算量）。MobileMoE 的设计正是围绕这个思路——总参数从 1.3B 到 5.3B，但实际激活参数仅为 0.3B 到 0.9B。与同等总参数量的 OLMoE-1B-7B 相比，MobileMoE 使用的参数量减少了 60%，却在多项基准上保持了竞争力。

四阶段训练：从密集到稀疏的渐进策略

Meta 并没有简单地把 MoE 结构塞进小模型。他们设计了一套四阶段训练流程：密集预训练、稀疏化转换、蒸馏对齐、端侧适配优化。这种渐进式策略的核心考量是：直接训练小规模 MoE 容易导致专家利用率不均衡（路由坍缩），而先训练密集模型再稀疏化，可以确保每个专家都从良好的初始化出发。在 14 个基准测试上的评估结果显示，这套流程训练出的模型在知识推理、数学、代码等任务上均超越了同规模密集模型。

MobileMoE 模型架构与训练流程 — MobileMoE 的四阶段训练管线与模型配置

真实手机上的加速数据比纸面数据更重要

这篇论文的一个亮点是：所有延迟测试都在真实手机上完成，而非模拟器或桌面 GPU。实测数据显示，MobileMoE 在 prefill 阶段加速 1.8-3.8 倍，decode 阶段加速 2.2-3.4 倍，对比基线是同等参数量的密集模型。prefill 加速幅度相对较小，因为该阶段主要受限于计算吞吐；decode 阶段加速更显著，因为 MoE 的稀疏激活有效降低了内存带宽压力——而 decode 阶段正是自回归生成的瓶颈所在。对于实际应用来说，这意味着用户在流式输出时能感受到明显更快的响应速度。

端侧 MoE 缩放定律是这份工作最有前瞻性的贡献

除了模型本身，Meta 团队推导出的端侧 MoE 缩放定律是这项工作的深层价值。现有的缩放定律（如 Chinchilla Law）主要基于密集模型在云端硬件上的表现，对 MoE 架构和端侧硬件的适配性有限。Meta 的缩放定律首次将专家数量、激活比例、端侧硬件约束（内存带宽、缓存大小）纳入统一框架，可以预测在给定设备上最优的模型配置。这意味着未来的端侧模型开发者不需要反复试错——他们可以根据目标设备的硬件参数，直接计算最优的专家数量和激活比例。对于整个端侧 AI 生态而言，这种从经验驱动到理论指导的转变，比单个模型的性能提升更有长期价值。

参考链接

MobileMoE: On-Device Mixture-of-Experts

Meta发布首个端侧混合专家模型

稀疏激活才是端侧模型的正确打开方式

四阶段训练：从密集到稀疏的渐进策略

真实手机上的加速数据比纸面数据更重要

端侧 MoE 缩放定律是这份工作最有前瞻性的贡献

相关推荐