AI音乐革命:技术突破、版权之争与资本角逐

人工智能音乐技术的兴起正在动摇传统音乐行业的格局。这个新兴领域不仅挑战了作曲家和音乐人的地位,还对唱片公司、版权机构等现有利益相关方构成了威胁。AI音乐的快速发展引发了关于创作权归属、艺术真实性以及音乐产业未来方向的激烈讨论。

01 Suno AI的风靡与争议

2024年5月末,总部位于波士顿的AI音乐公司Suno宣布完成1.25亿美元B轮融资,投后估值达5亿美元,用户数量快速增长至超过1000万。微软等科技巨头更是将Suno的AI音乐创作功能直接整合到旗下的Copilot产品中。

Suno成立于2022年,在B轮融资前仅有12名员工。2024年3月,Suno突然爆火,其文本生成音乐(Text to music)的能力大幅提升,被认为是AI音乐的ChatGPT时刻。

然而,Suno的成功也引发了争议。2024年6月底,美国唱片业协会(RIAA)代表索尼、环球和华纳三大唱片公司及旗下厂牌,对Suno和另一家AI音乐应用Udio发起诉讼,指控其侵犯版权,并要求每首侵权作品赔偿15万美元。

这起诉讼反映了AI音乐对传统音乐产业的冲击,以及围绕AI模型训练数据的争议。一些业内人士怀疑Suno可能使用了有版权的音乐进行训练,因为像谷歌和Meta这样的科技巨头在AI音乐领域的成果都不如Suno。

02 AI音乐模型拆解

2.1 第一层压缩及码本

Meta音乐技术主管Roger Chen解释道,机器学习在音乐领域已经应用多年。业界认识到,如果将音乐定义为声音在空气中的震动产生不同频率和幅度,那么就可以将声音标记为电信号。

在AI音乐中,各种音乐维度都可以表达成token序列,包括节奏、速度、和声、调性、段落、旋律、歌词和唱腔音色等。然而,音频信息非常丰富,一首3分钟的歌曲通常包含近800万个采样点,如果每个采样点对应一个token,对模型训练来说是一个巨大挑战。

直到几年前,Meta和谷歌在音频采样压缩技术上取得突破,能将音频采样转化为更少量的token,压缩幅度达到几十到几百倍,AI音乐的发展才开始提速。

Google的SoundStream和Meta的EnCodec等技术可以将音频转换为token,并且能够还原成几乎无失真的音频。这些技术不仅可以大幅压缩音频,还能将各种音乐维度(如节拍、速度、和弦进行、情感、流派、乐器、歌词、音高、长度、歌手风格等)转换为token。

通过将这些不同模态转换为token,可以使用统一的大语言模型框架,让模型学习某些模态与音频token之间的对应关系,从而构建一个强大的AI音乐生成系统。

[待续...]