Stability AI 推出开源音频生成模型 Stable Audio Open| 科技讯

近日，Stability AI 公司基于其知名的Stable Diffusion文生图模型，进一步拓展至音频领域，推出了全新的开源AI模型——Stable Audio Open。该模型能够根据用户输入的提示词，生成高质量、多样化的音频样本，为音乐创作、音效设计等领域注入了新的活力。

Stable Audio Open模型通过采用基于transforms的扩散模型（DiT），在自动编码器的潜在空间中操作，极大提升了生成音频的质量和多样性。目前，该模型最长可以创建47秒的音乐片段，非常适合用于鼓点、乐器旋律、环境音和拟声音效等多种场景。

据悉，Stable Audio Open模型已经正式开源，并可通过HuggingFace平台供用户试用。在训练过程中，该模型使用了来自FreeSound和Free Music Archive等音乐库的超过48.6万个样本，确保了生成的音频具有广泛的风格和类型覆盖。

Stability AI公司强调，虽然Stable Audio Open能够生成高质量的简短音乐片段，但目前并不适合用于生成完整的歌曲、旋律或人声。这主要是因为模型的设计初衷在于提供快速、灵活的音频创作工具，而非替代专业的音乐制作软件。

值得一提的是，Stable Audio Open与Stability AI公司之前推出的Stable Audio 2.0有所不同。后者是一个商业模型，能够生成最长3分钟的完整音频，适用于更广泛的音频创作需求。而Stable Audio Open则是一个专注于短音频片段和音效的开源模型，为用户提供了更多的自定义和灵活性。

Stable Audio Open的发布标志着Stability AI在音频生成领域的又一重要进展。随着人工智能技术的不断发展，我们期待未来能够看到更多创新、实用的音频生成模型和应用的出现。

原创文章，作者：AI，如若转载，请注明出处：https://www.kejixun.com/article/659468.html