AI音频大模型:全球热潮背后的技术解密

Stable Audio Open:一款创新的开源模型,能将文本转换为高质量音频。

三个关键架构支持44.1kHz高质量立体声短音频的自由生成

Stable Audio Open引入了一个文本到音频模型,包含三个主要架构:

  1. 自动编码器:将波形数据压缩到可管理的序列长度
  2. 基于T5的文本嵌入
  3. 基于Transformer的扩散模型(DiT):在自动编码器的潜在空间中运作

作为Stable Audio 2的变体,Stable Audio Open在训练数据采用和一些架构方面进行了调整。它使用了完全不同的数据集,并采用T5而非CLAP(对比语言-音频预训练)。

作为一个开源免费模型,Stable Audio Open无法生成连贯的完整曲目,也未针对完整歌曲、旋律或人声进行优化。

Stability AI表示,Stable Audio Open专注于音频演示和音效创作,能够自由生成长达47秒的44.1kHz高质量立体声音频。经过专业训练,该模型非常适合创建鼓点、乐器循环、环境音效、拟音录音和其他用于音乐制作和声音设计的音频样本。

这个开源版本的一个关键优势是用户可以根据自己的自定义音频数据对模型进行微调。

训练过程强调版权保护

在生成式AI快速发展的背景下,关于AI在音乐行业的使用争论日益激烈,特别是涉及版权问题。

Stability AI表示,为了尊重创作者版权,Stable Audio Open使用来自Freesound和Free Music Archive (FMA)的数据集,所有使用的录音都是在知识共享(CC)许可下发布的。

为确保避免任何受版权保护的材料,Stability AI声称使用音频标记器来识别Freesound中的音乐样本,将识别出的样本发送给Audible Magic的内容检测公司,以确保从数据集中删除潜在的受版权保护的音乐。

结论:开源、免费模型使文本到音频更易获取

Stable Audio Open的推出展示了Stability AI在文本到音频模型方面的创新和进展。虽然该模型在音频长度和连贯性生成方面有限制,但其优势显而易见。它可以免费生成高质量的44.1kHz立体声音频,并可在消费级GPU上运行,降低了文本到音频使用的门槛。

同时,Stable Audio Open在开放音频生成技术的同时,为版权保护设立了新的基准。未来,随着技术的不断进步和伦理规范的完善,Stable Audio Open有望在更多应用场景中实现其潜力,推动音频生成技术的发展和普及。

目前,Stable Audio Open模型权重可在机器学习模型平台Hugging Face上获取。Stability AI鼓励声音设计师、音乐家、开发人员以及任何对音频感兴趣的人探索该模型的功能并提供反馈。