VoxCPM 是面壁智能(OpenBMB)开源的多语种语音合成模型,采用免分词器架构,支持 30 种语言和 9 种中文方言的语音生成,在 GitHub 上获得超两万星标,被社区称为”ElevenLabs 的免费开源替代”。模型参数仅 2B,却能输出 48kHz 采样率的录音室级音频,在消费级显卡上即可运行推理。
- 免分词器架构:在连续潜空间直接建模语音信号,无需离散分词步骤,保留了更多声学细节与语言韵律特征
- 30 种语言 + 9 种中文方言:涵盖中英日韩法德阿泰越等主流语言,以及四川话、粤语、吴语、东北话、河南话、陕西话、山东话、天津话和闽南语
- 零样本声音克隆:5 至 50 秒参考音频即可克隆,支持”终极模式”附加文本转录以提升输出保真度
- 文本描述生成语音:无需参考音频,仅凭文字描述(如”温柔的中年女性声音”)即可创造全新音色
- 流式合成:实时低延迟流式生成,RTF 最低可达 0.17(RTX 4090),已具备在线服务部署条件
语音合成的分水岭:ElevenLabs 和开源方案之间的差距正在消失
多语种语音合成市场长期存在一条清晰的分界线:闭源方案如 ElevenLabs 提供最高质量的语音输出,但受限于付费墙和数据隐私问题——所有音频数据必须上传至云端处理;开源方案虽然免费且可在本地运行,但在语种覆盖范围、韵律自然度和音质上始终差一截。VoxCPM2 的出现正在模糊这条界线。
从语言覆盖来看,ElevenLabs 支持约 29 种语言,VoxCPM2 支持 30 种,基本持平。在中文方言方面,VoxCPM2 覆盖 9 种方言,这是绝大多数闭源 TTS 产品完全不涉及的领域。据面壁智能官方介绍,模型基于超过 200 万小时的多语种语音数据训练,数据规模在开源 TTS 模型中位居第一梯队。
在音质维度上,VoxCPM2 通过 AudioVAE V2 超分辨率声码器实现了 48kHz 采样率输出,与商业级 TTS 产品处于同一水平。模型最低仅需 8GB VRAM 即可运行推理(推荐 12GB 以上),这意味着搭载 RTX 4070 或同等规格显卡的个人开发者即可在本地运行。ElevenLabs 虽然免去了本地硬件需求,但长期 API 调用成本不低,且数据隐私敏感场景下无法接受将音频上传至第三方服务器——这正是 VoxCPM2 的核心替代价值所在。
当然,VoxCPM2 并非没有短板。长文本的韵律自然度、中英混合等跨语言文本的发音准确率,以及极低资源语言的合成质量,仍与经过专门优化的商业方案存在差距。不过 Apache-2.0 许可协议允许自由商业使用,社区贡献的各类工具正在快速弥合这些缺口。
工程化程度:从模型训练到用户部署的全链路设计
VoxCPM 的工程实现体现了面壁智能在语音 AI 领域的技术积累。免分词器设计是最核心的架构决策——传统 TTS 模型需要将文本转换为离散的音素或字符 token,这个过程不可避免地丢失部分语言信息,尤其在处理多语种混合文本时缺陷更为明显。VoxCPM 采用扩散自回归架构,在连续潜空间直接对语音信号建模,绕过了分词环节,使得同一套模型参数能够自然地处理不同语言的语音特征。
推理优化方面,AudioVAE V2 提供了高效的声码器超分辨率能力,2B 参数量的模型在 RTX 4090 上达到 0.17 的实时率(合成 1 秒语音约需 170ms 计算),已具备在线服务的部署条件。Python 包通过 pip install voxcpm 即可一键安装,Hugging Face 上同时提供了 0.5B 和 2B 两个规格的权重,方便不同算力场景按需选择。
社区反响方面,多个第三方项目已围绕 VoxCPM 展开:hangry-labs 提供了 Docker 封装版,timoncool 制作了 Windows 便携式安装包,官方在线体验站(voxcpm.modelbest.cn)则面向普通用户提供零门槛试用入口。对于一个开源不到半年的项目而言,这种从开发者到终端用户的多层次覆盖速度相当可观,也侧面印证了市场对高质量开源 TTS 工具的迫切需求。