01 Suno AI的风靡与争议
2024年5月末,总部位于波士顿的AI音乐公司Suno宣布完成1.25亿美元B轮融资,投后估值达5亿美元,用户数量快速增长至超过1000万。微软等科技巨头更是将Suno的AI音乐创作功能直接整合到旗下的Copilot产品中。
Suno成立于2022年,在B轮融资前仅有12名员工。2024年3月,Suno突然爆火,其文本生成音乐(Text to music)的能力大幅提升,被认为是AI音乐的ChatGPT时刻。
然而,Suno的成功也引发了争议。2024年6月底,美国唱片业协会(RIAA)代表索尼、环球和华纳三大唱片公司及旗下厂牌,对Suno和另一家AI音乐应用Udio发起诉讼,指控其侵犯版权,并要求每首侵权作品赔偿15万美元。
这起诉讼反映了AI音乐对传统音乐产业的冲击,以及围绕AI模型训练数据的争议。一些业内人士怀疑Suno可能使用了有版权的音乐进行训练,因为像谷歌和Meta这样的科技巨头在AI音乐领域的成果都不如Suno。
02 AI音乐模型拆解
2.1 第一层压缩及码本
Meta音乐技术主管Roger Chen解释道,机器学习在音乐领域已经应用多年。业界认识到,如果将音乐定义为声音在空气中的震动产生不同频率和幅度,那么就可以将声音标记为电信号。
在AI音乐中,各种音乐维度都可以表达成token序列,包括节奏、速度、和声、调性、段落、旋律、歌词和唱腔音色等。然而,音频信息非常丰富,一首3分钟的歌曲通常包含近800万个采样点,如果每个采样点对应一个token,对模型训练来说是一个巨大挑战。
直到几年前,Meta和谷歌在音频采样压缩技术上取得突破,能将音频采样转化为更少量的token,压缩幅度达到几十到几百倍,AI音乐的发展才开始提速。
Google的SoundStream和Meta的EnCodec等技术可以将音频转换为token,并且能够还原成几乎无失真的音频。这些技术不仅可以大幅压缩音频,还能将各种音乐维度(如节拍、速度、和弦进行、情感、流派、乐器、歌词、音高、长度、歌手风格等)转换为token。
通过将这些不同模态转换为token,可以使用统一的大语言模型框架,让模型学习某些模态与音频token之间的对应关系,从而构建一个强大的AI音乐生成系统。
[待续...]