Meta发布首个端侧混合专家模型

AI资讯

端侧大模型一直面临一个根本矛盾:用户想要桌面级的智能体验,但手机的算力和内存只有服务器的零头。Meta 团队给出了他们的答案——MobileMoE,首个专门为端侧设备设计的混合专家(MoE)模型家族,并在此基础上推导出了端侧 MoE 的缩放定律。

稀疏激活才是端侧模型的正确打开方式

传统密集模型在端侧面临两个硬约束:内存带宽和推理延迟。模型越大,这两个指标越差。MoE 的优势在于:总参数量大(保持知识容量),但每次推理只激活一小部分(降低实际计算量)。MobileMoE 的设计正是围绕这个思路——总参数从 1.3B 到 5.3B,但实际激活参数仅为 0.3B 到 0.9B。与同等总参数量的 OLMoE-1B-7B 相比,MobileMoE 使用的参数量减少了 60%,却在多项基准上保持了竞争力。

四阶段训练:从密集到稀疏的渐进策略

Meta 并没有简单地把 MoE 结构塞进小模型。他们设计了一套四阶段训练流程:密集预训练、稀疏化转换、蒸馏对齐、端侧适配优化。这种渐进式策略的核心考量是:直接训练小规模 MoE 容易导致专家利用率不均衡(路由坍缩),而先训练密集模型再稀疏化,可以确保每个专家都从良好的初始化出发。在 14 个基准测试上的评估结果显示,这套流程训练出的模型在知识推理、数学、代码等任务上均超越了同规模密集模型。

MobileMoE 模型架构与训练流程
MobileMoE 的四阶段训练管线与模型配置

真实手机上的加速数据比纸面数据更重要

这篇论文的一个亮点是:所有延迟测试都在真实手机上完成,而非模拟器或桌面 GPU。实测数据显示,MobileMoE 在 prefill 阶段加速 1.8-3.8 倍decode 阶段加速 2.2-3.4 倍,对比基线是同等参数量的密集模型。prefill 加速幅度相对较小,因为该阶段主要受限于计算吞吐;decode 阶段加速更显著,因为 MoE 的稀疏激活有效降低了内存带宽压力——而 decode 阶段正是自回归生成的瓶颈所在。对于实际应用来说,这意味着用户在流式输出时能感受到明显更快的响应速度。

端侧 MoE 缩放定律是这份工作最有前瞻性的贡献

除了模型本身,Meta 团队推导出的端侧 MoE 缩放定律是这项工作的深层价值。现有的缩放定律(如 Chinchilla Law)主要基于密集模型在云端硬件上的表现,对 MoE 架构和端侧硬件的适配性有限。Meta 的缩放定律首次将专家数量、激活比例、端侧硬件约束(内存带宽、缓存大小)纳入统一框架,可以预测在给定设备上最优的模型配置。这意味着未来的端侧模型开发者不需要反复试错——他们可以根据目标设备的硬件参数,直接计算最优的专家数量和激活比例。对于整个端侧 AI 生态而言,这种从经验驱动到理论指导的转变,比单个模型的性能提升更有长期价值。


参考链接