免分词器语音克隆开源：22.7k 星逼近 ElevenLabs

一个名为 VoiceForge 的免分词器语音克隆与多语种合成项目 5 月 31 日 GitHub 星标冲到 22.7k，社区直接称它为「开源版 ElevenLabs 替代」。它最大的技术差异是彻底跳过传统 TTS 的文本分词环节，直接从字符级输入学声学单元，目标是 5 秒参考音频就能复刻任意人的音色，并支持 32 种语言互相迁移。

项目核心作者、前 Meta 语音组研究员 Kainan Wang 在 README 里解释这个设计：「分词器是 TTS 系统里最脏的一块，每加一种语言就要重训一次分词表。我们干脆把它删掉，让模型直接吃字符 + 声学特征，结果跨语言迁移反而更自然。」这个思路在学术圈讨论了两年，VoiceForge 是第一个把它做到生产可用质量的开源实现。

免分词器语音克隆项目示意 — VoiceForge 删掉分词器直接学声学单元，被社区当成开源版 ElevenLabs

跨语言迁移是真本事

VoiceForge 最被夸的能力是「零样本跨语言」：用一段中文音频做参考，可以让同一个声音说英语、日语、法语，且保留原音色的音质和情感。社区测试给出的数据是说话人相似度（speaker similarity）0.89，自然度 MOS 评分 4.31（满分 5），已经逼近 ElevenLabs 商用版的 4.4。免费 + 开源 + 接近商用质量，这是 22.7k 星的根本原因。

模型不大，base 版只有 480M 参数，单张消费级显卡就能跑实时推理。Kainan Wang 特意强调轻量化是设计目标：「我们不想做一个只有 H100 才能跑的玩具，VoiceForge base 在 RTX 3060 上推理延迟 180ms，够做实时对话。」

滥用风险摆在明面上

语音克隆这类项目绕不开伦理争议。5 秒样本复刻音色，意味着诈骗分子录一段你的语音就能伪造你的声音。VoiceForge 的应对是内置一个不可关闭的「音频水印」——所有合成输出都嵌入听不见的频域水印，配套开源一个检测工具。但华盛顿大学语言学教授、知名 AI 伦理批评者 Emily Bender 公开质疑：「水印能被重新编码洗掉，开源出来等于教坏人怎么绕过。这类工具的善恶完全取决于用的人，开源社区需要更认真地讨论发布伦理。」

商用替代效应已经开始

VoiceForge 火起来后，ElevenLabs 的处境变得微妙。它的核心收费功能（语音克隆 + 多语种）现在有了一个质量接近、完全免费的开源替代。已经有独立开发者在 Reddit 晒出「把产品里的 ElevenLabs API 换成自托管 VoiceForge，每月省 1200 美元」的案例。ElevenLabs 暂未公开回应，但市场普遍预期它要么降价，要么往「企业级合规 + 实时低延迟」这种开源短期补不上的方向走。

这个项目的意义在于它再次验证了一条规律：任何 AI 能力一旦有人证明可行，开源社区追平的速度比想象快得多。语音合成这个赛道在 2024 年还是 ElevenLabs 一家独大，两年时间开源就把质量差距压到肉眼难辨。下一个被开源追平的，大概率是视频生成。

参考：VoiceForge GitHub 仓库

免分词器语音克隆神器开源：多语种合成系统斩 22.7k 星

跨语言迁移是真本事

滥用风险摆在明面上

商用替代效应已经开始

相关推荐