AI音樂革命：技術突破、版權之爭與資本角逐

01 Suno AI的風靡與爭議

2024年5月末，總部位於波士頓的AI音樂公司Suno宣布完成1.25億美元B輪融資，投後估值達5億美元，用戶數量快速增長至超過1000萬。微軟等科技巨頭更是將Suno的AI音樂創作功能直接整合到旗下的Copilot產品中。

Suno成立於2022年，在B輪融資前僅有12名員工。2024年3月，Suno突然爆火，其文本生成音樂(Text to music)的能力大幅提升，被認為是AI音樂的ChatGPT時刻。

然而，Suno的成功也引發了爭議。2024年6月底，美國唱片業協會(RIAA)代表索尼、環球和華納三大唱片公司及旗下廠牌，對Suno和另一家AI音樂應用Udio發起訴訟，指控其侵犯版權，並要求每首侵權作品賠償15萬美元。

這起訴訟反映了AI音樂對傳統音樂產業的衝擊，以及圍繞AI模型訓練數據的爭議。一些業內人士懷疑Suno可能使用了有版權的音樂進行訓練，因為像谷歌和Meta這樣的科技巨頭在AI音樂領域的成果都不如Suno。

Meta音樂技術主管Roger Chen解釋道，機器學習在音樂領域已經應用多年。業界認識到，如果將音樂定義為聲音在空氣中的震動產生不同頻率和幅度，那麼就可以將聲音標記為電信號。

在AI音樂中，各種音樂維度都可以表達成token序列，包括節奏、速度、和聲、調性、段落、旋律、歌詞和唱腔音色等。然而，音頻信息非常豐富，一首3分鐘的歌曲通常包含近800萬個採樣點，如果每個採樣點對應一個token，對模型訓練來說是一個巨大挑戰。

直到幾年前，Meta和谷歌在音頻採樣壓縮技術上取得突破，能將音頻採樣轉化為更少量的token，壓縮幅度達到幾十到幾百倍，AI音樂的發展才開始提速。

Google的SoundStream和Meta的EnCodec等技術可以將音頻轉換為token，並且能夠還原成幾乎無失真的音頻。這些技術不僅可以大幅壓縮音頻，還能將各種音樂維度（如節拍、速度、和弦進行、情感、流派、樂器、歌詞、音高、長度、歌手風格等）轉換為token。

通過將這些不同模態轉換為token，可以使用統一的大語言模型框架，讓模型學習某些模態與音頻token之間的對應關係，從而構建一個強大的AI音樂生成系統。

[待續...]