正式发布 Stable Audio 3 权重

AI资讯

Stability AI 在 Hugging Face 放出 Stable Audio 3 全套权重,核心卖点是自编码器把潜空间压到上一代的几分之一,配合扩散主干能在单卡 RTX 4090 上跑完整首长度的音轨生成。最新音频权重合集同时收录基础模型、ControlNet 风格控制权重和音频编辑专用 LoRA。

  • 采用新一代音频自编码器,44.1kHz 立体声压缩比达 2048×,潜空间长度比 Stable Audio 2 缩短约 4 倍
  • 消费级 24GB 显卡可生成单轨长度超过 4 分钟的连续音频,无需切片拼接
  • 权重合集包含基础生成、风格迁移、局部重绘三类 checkpoint,全部 MIT 许可
  • 推理时显存峰值约 18GB,比同等长度上一代版本下降近一半

真正的影响在工作流,不在 demo

音频扩散模型这两年最大的痛点不是质量,是单次推理时长和显存占用让正经做音乐的人没法迭代。Stable Audio 3 把 4 分钟级别的音频拉进消费级显卡,意味着独立音乐人不需要 H100 也能在自己机器上跑迭代实验。Stability AI 音频研究负责人 Zach Evans 在权重发布说明里写道:「这一代的目标是让一个有声音想法的人在午饭时间内完成 20 次试错,而不是排队等云端 GPU。」

Stable Audio 3 权重合集发布
Stable Audio 3 权重已上线 Hugging Face,单卡可生成 4 分钟级音轨。

开放权重的另一面是版权链路

Stability AI 没有公开训练集明细,只说沿用了 AudioSparx 等已授权数据,这点在 Stable Audio 2 时就被独立音乐人盯过。MIT 许可的权重意味着任何人可以商用部署,但训练数据的合规链路并没有跟着公开——下游再生成的音轨能不能进商业作品库,仍然要看用户自己签的二次授权。模型从云端 API 走到本地权重之后,合规责任也跟着从厂商滑到了使用者。


参考链接