AI音頻大模型:全球熱潮背後的技術解密

Stable Audio Open:一款創新的開源模型,能將文字轉換為高品質音訊。

三個關鍵架構支持44.1kHz高品質立體聲短音頻的自由生成

Stable Audio Open 引入了一個具有三個主要架構的文本到音頻模型:

  1. 自動編碼器:將波形數據壓縮到可管理的序列長度
  2. 基於T5的文本嵌入
  3. 基於Transformer的擴散模型(DiT):在自動編碼器的潛在空間中運作

作為Stable Audio 2的變體,Stable Audio Open在訓練數據採用和一些架構方面進行了調整。它使用完全不同的數據集,並採用T5而不是CLAP(對比語言-音頻預訓練)。

作為開源免費模型,Stable Audio Open無法生成連貫的完整曲目,也未針對完整歌曲、旋律或人聲進行優化。

Stability AI表示,Stable Audio Open專注於音頻演示和音效創作,能夠自由生成長達47秒的44.1kHz高品質立體聲音頻。經過專業訓練,該模型非常適合創建鼓點、樂器循環、環境聲音、擬音錄音和其他用於音樂製作和聲音設計的音頻樣本。

這個開源版本的一個關鍵優勢是用戶可以根據自己的自定義音頻數據對模型進行微調。

訓練過程強調版權保護

在生成式AI快速發展的背景下,關於AI在音樂行業的使用的爭論正在加劇,特別是關於版權問題。

Stability AI表示,為了尊重創作者版權,Stable Audio Open使用來自Freesound和Free Music Archive(FMA)的數據集,所有使用的錄音都是在創用CC授權下發布的。

為確保避免任何受版權保護的材料,Stability AI聲稱使用音頻標記器來識別Freesound中的音樂樣本,將識別出的樣本發送給Audible Magic的內容檢測公司,以確保從數據集中移除潛在的受版權保護的音樂。

結論:開源、免費模型使文本到音頻更易於使用

Stable Audio Open的推出展示了Stability AI在文本到音頻模型方面的創新和進展。雖然該模型在音頻長度和連貫性生成方面有限制,但其優勢顯而易見。它可以免費生成高品質的44.1kHz立體聲音頻,並可在消費級GPU上運行,降低了文本到音頻使用的門檻。

同時,Stable Audio Open在開放音頻生成技術的同時,為版權保護設立了新的基準。未來,隨著技術的不斷進步和倫理規範的完善,Stable Audio Open有望在更多應用場景中實現其潛力,推動音頻生成技術的發展和普及。

目前,Stable Audio Open模型權重可在機器學習模型平台Hugging Face上獲得。Stability AI鼓勵聲音設計師、音樂家、開發人員以及任何對音頻感興趣的人探索該模型的功能並提供反饋。