Stability AI 推出开源音频生成模型 Stable Audio Open

Stability AI 推出开源音频生成模型 Stable Audio Open

近日,Stability AI 公司基于其知名的Stable Diffusion文生图模型,进一步拓展至音频领域,推出了全新的开源AI模型——Stable Audio Open。该模型能够根据用户输入的提示词,生成高质量、多样化的音频样本,为音乐创作、音效设计等领域注入了新的活力。

Stable Audio Open模型通过采用基于transforms的扩散模型(DiT),在自动编码器的潜在空间中操作,极大提升了生成音频的质量和多样性。目前,该模型最长可以创建47秒的音乐片段,非常适合用于鼓点、乐器旋律、环境音和拟声音效等多种场景。

据悉,Stable Audio Open模型已经正式开源,并可通过HuggingFace平台供用户试用。在训练过程中,该模型使用了来自FreeSound和Free Music Archive等音乐库的超过48.6万个样本,确保了生成的音频具有广泛的风格和类型覆盖。

Stability AI公司强调,虽然Stable Audio Open能够生成高质量的简短音乐片段,但目前并不适合用于生成完整的歌曲、旋律或人声。这主要是因为模型的设计初衷在于提供快速、灵活的音频创作工具,而非替代专业的音乐制作软件。

值得一提的是,Stable Audio Open与Stability AI公司之前推出的Stable Audio 2.0有所不同。后者是一个商业模型,能够生成最长3分钟的完整音频,适用于更广泛的音频创作需求。而Stable Audio Open则是一个专注于短音频片段和音效的开源模型,为用户提供了更多的自定义和灵活性。

Stable Audio Open的发布标志着Stability AI在音频生成领域的又一重要进展。随着人工智能技术的不断发展,我们期待未来能够看到更多创新、实用的音频生成模型和应用的出现。

原创文章,作者:AI,如若转载,请注明出处:https://www.kejixun.com/article/659468.html

AI的头像AI认证作者

相关推荐

发表回复

登录后才能评论