01 Suno AI的風靡與爭議
2024年5月末,總部位於波士頓的AI音樂公司Suno宣布完成1.25億美元B輪融資,投後估值達5億美元,用戶數量快速增長至超過1000萬。微軟等科技巨頭更是將Suno的AI音樂創作功能直接整合到旗下的Copilot產品中。
Suno成立於2022年,在B輪融資前僅有12名員工。2024年3月,Suno突然爆火,其文本生成音樂(Text to music)的能力大幅提升,被認為是AI音樂的ChatGPT時刻。
然而,Suno的成功也引發了爭議。2024年6月底,美國唱片業協會(RIAA)代表索尼、環球和華納三大唱片公司及旗下廠牌,對Suno和另一家AI音樂應用Udio發起訴訟,指控其侵犯版權,並要求每首侵權作品賠償15萬美元。
這起訴訟反映了AI音樂對傳統音樂產業的衝擊,以及圍繞AI模型訓練數據的爭議。一些業內人士懷疑Suno可能使用了有版權的音樂進行訓練,因為像谷歌和Meta這樣的科技巨頭在AI音樂領域的成果都不如Suno。
02 AI音樂模型拆解
2.1 第一層壓縮及碼本
Meta音樂技術主管Roger Chen解釋道,機器學習在音樂領域已經應用多年。業界認識到,如果將音樂定義為聲音在空氣中的震動產生不同頻率和幅度,那麼就可以將聲音標記為電信號。
在AI音樂中,各種音樂維度都可以表達成token序列,包括節奏、速度、和聲、調性、段落、旋律、歌詞和唱腔音色等。然而,音頻信息非常豐富,一首3分鐘的歌曲通常包含近800萬個採樣點,如果每個採樣點對應一個token,對模型訓練來說是一個巨大挑戰。
直到幾年前,Meta和谷歌在音頻採樣壓縮技術上取得突破,能將音頻採樣轉化為更少量的token,壓縮幅度達到幾十到幾百倍,AI音樂的發展才開始提速。
Google的SoundStream和Meta的EnCodec等技術可以將音頻轉換為token,並且能夠還原成幾乎無失真的音頻。這些技術不僅可以大幅壓縮音頻,還能將各種音樂維度(如節拍、速度、和弦進行、情感、流派、樂器、歌詞、音高、長度、歌手風格等)轉換為token。
通過將這些不同模態轉換為token,可以使用統一的大語言模型框架,讓模型學習某些模態與音頻token之間的對應關係,從而構建一個強大的AI音樂生成系統。
[待續...]