Stable Audio 3 权重开源：消费级显卡跑 4 分钟长音频

Stability AI 在 Hugging Face 放出 Stable Audio 3 全套权重，核心卖点是自编码器把潜空间压到上一代的几分之一，配合扩散主干能在单卡 RTX 4090 上跑完整首长度的音轨生成。最新音频权重合集同时收录基础模型、ControlNet 风格控制权重和音频编辑专用 LoRA。

采用新一代音频自编码器，44.1kHz 立体声压缩比达 2048×，潜空间长度比 Stable Audio 2 缩短约 4 倍
消费级 24GB 显卡可生成单轨长度超过 4 分钟的连续音频，无需切片拼接
权重合集包含基础生成、风格迁移、局部重绘三类 checkpoint，全部 MIT 许可
推理时显存峰值约 18GB，比同等长度上一代版本下降近一半

真正的影响在工作流，不在 demo

音频扩散模型这两年最大的痛点不是质量，是单次推理时长和显存占用让正经做音乐的人没法迭代。Stable Audio 3 把 4 分钟级别的音频拉进消费级显卡，意味着独立音乐人不需要 H100 也能在自己机器上跑迭代实验。Stability AI 音频研究负责人 Zach Evans 在权重发布说明里写道：「这一代的目标是让一个有声音想法的人在午饭时间内完成 20 次试错，而不是排队等云端 GPU。」

Stable Audio 3 权重合集发布 — Stable Audio 3 权重已上线 Hugging Face，单卡可生成 4 分钟级音轨。

开放权重的另一面是版权链路

Stability AI 没有公开训练集明细，只说沿用了 AudioSparx 等已授权数据，这点在 Stable Audio 2 时就被独立音乐人盯过。MIT 许可的权重意味着任何人可以商用部署，但训练数据的合规链路并没有跟着公开——下游再生成的音轨能不能进商业作品库，仍然要看用户自己签的二次授权。模型从云端 API 走到本地权重之后，合规责任也跟着从厂商滑到了使用者。

参考链接

最新音频权重合集

正式发布 Stable Audio 3 权重

真正的影响在工作流，不在 demo

开放权重的另一面是版权链路

相关推荐