01 Suno AIの流行と論争
2024年5月末、ボストンを拠点とするAI音楽会社Sunoは1億2500万ドルのシリーズB資金調達を完了し、企業価値が5億ドルに達し、ユーザー数が急速に1000万人を超えたと発表しました。マイクロソフトなどの技術大手は、SunoのAI音楽作成機能を自社のCopilot製品に直接統合しました。
Sunoは2022年に設立され、シリーズB資金調達前はわずか12人の従業員しかいませんでした。2024年3月、Sunoは突然人気を博し、そのテキストから音楽を生成する能力が大幅に向上し、AI音楽の「ChatGPTモーメント」と見なされました。
しかし、Sunoの成功は論争も引き起こしました。2024年6月末、米国レコード協会(RIAA)はソニー、ユニバーサル、ワーナーの3大レコード会社とその傘下のレーベルを代表して、Sunoともう1つのAI音楽アプリUdioを著作権侵害で訴え、侵害作品1曲につき15万ドルの賠償を求めました。
この訴訟は、AI音楽が伝統的な音楽産業に与える衝撃と、AIモデルのトレーニングデータをめぐる論争を反映しています。業界の一部の人々は、GoogleやMetaのような技術大手のAI音楽分野での成果がSunoに及ばないことから、Sunoが著作権のある音楽をトレーニングに使用した可能性があると疑っています。
02 AI音楽モデルの解析
2.1 第一層の圧縮とコードブック
Metaの音楽技術責任者Roger Chenは、機械学習が音楽分野で長年応用されてきたと説明しています。業界は、音楽を空気中の振動が異なる周波数と振幅を生み出すものと定義すれば、音を電気信号としてマークできることを認識しています。
AI音楽では、リズム、テンポ、ハーモニー、調性、セクション、メロディ、歌詞、ボーカルの音色など、様々な音楽の次元をトークン列として表現できます。しかし、音声情報は非常に豊富で、3分間の曲は通常約800万のサンプリングポイントを含んでおり、各サンプリングポイントが1つのトークンに対応するとすれば、モデルのトレーニングにとって大きな課題となります。
数年前まで、MetaとGoogleが音声サンプリング圧縮技術で breakthrough を達成し、音声サンプリングをより少量のトークンに変換できるようになり、圧縮率が数十倍から数百倍に達して初めて、AI音楽の発展が加速し始めました。
GoogleのSoundStreamやMetaのEnCodecなどの技術は、音声をトークンに変換し、ほぼ無損失で音声に復元することができます。これらの技術は音声を大幅に圧縮できるだけでなく、ビート、テンポ、コード進行、感情、ジャンル、楽器、歌詞、ピッチ、長さ、歌手のスタイルなど、様々な音楽の次元をトークンに変換できます。
これらの異なるモダリティをトークンに変換することで、統一された大規模言語モデルのフレームワークを使用し、モデルに特定のモダリティと音声トークンの間の対応関係を学習させ、強力なAI音楽生成システムを構築することができます。
[続く...]