免分词器语音克隆神器开源:多语种合成系统斩 22.7k 星

GitHub精选

一个名为 VoiceForge 的免分词器语音克隆与多语种合成项目 5 月 31 日 GitHub 星标冲到 22.7k,社区直接称它为「开源版 ElevenLabs 替代」。它最大的技术差异是彻底跳过传统 TTS 的文本分词环节,直接从字符级输入学声学单元,目标是 5 秒参考音频就能复刻任意人的音色,并支持 32 种语言互相迁移。

项目核心作者、前 Meta 语音组研究员 Kainan Wang 在 README 里解释这个设计:「分词器是 TTS 系统里最脏的一块,每加一种语言就要重训一次分词表。我们干脆把它删掉,让模型直接吃字符 + 声学特征,结果跨语言迁移反而更自然。」这个思路在学术圈讨论了两年,VoiceForge 是第一个把它做到生产可用质量的开源实现。

免分词器语音克隆项目示意
VoiceForge 删掉分词器直接学声学单元,被社区当成开源版 ElevenLabs

跨语言迁移是真本事

VoiceForge 最被夸的能力是「零样本跨语言」:用一段中文音频做参考,可以让同一个声音说英语、日语、法语,且保留原音色的音质和情感。社区测试给出的数据是说话人相似度(speaker similarity)0.89,自然度 MOS 评分 4.31(满分 5),已经逼近 ElevenLabs 商用版的 4.4。免费 + 开源 + 接近商用质量,这是 22.7k 星的根本原因。

模型不大,base 版只有 480M 参数,单张消费级显卡就能跑实时推理。Kainan Wang 特意强调轻量化是设计目标:「我们不想做一个只有 H100 才能跑的玩具,VoiceForge base 在 RTX 3060 上推理延迟 180ms,够做实时对话。」

滥用风险摆在明面上

语音克隆这类项目绕不开伦理争议。5 秒样本复刻音色,意味着诈骗分子录一段你的语音就能伪造你的声音。VoiceForge 的应对是内置一个不可关闭的「音频水印」——所有合成输出都嵌入听不见的频域水印,配套开源一个检测工具。但华盛顿大学语言学教授、知名 AI 伦理批评者 Emily Bender 公开质疑:「水印能被重新编码洗掉,开源出来等于教坏人怎么绕过。这类工具的善恶完全取决于用的人,开源社区需要更认真地讨论发布伦理。」

商用替代效应已经开始

VoiceForge 火起来后,ElevenLabs 的处境变得微妙。它的核心收费功能(语音克隆 + 多语种)现在有了一个质量接近、完全免费的开源替代。已经有独立开发者在 Reddit 晒出「把产品里的 ElevenLabs API 换成自托管 VoiceForge,每月省 1200 美元」的案例。ElevenLabs 暂未公开回应,但市场普遍预期它要么降价,要么往「企业级合规 + 实时低延迟」这种开源短期补不上的方向走。

这个项目的意义在于它再次验证了一条规律:任何 AI 能力一旦有人证明可行,开源社区追平的速度比想象快得多。语音合成这个赛道在 2024 年还是 ElevenLabs 一家独大,两年时间开源就把质量差距压到肉眼难辨。下一个被开源追平的,大概率是视频生成。


参考:VoiceForge GitHub 仓库