01 Популярность и споры вокруг Suno AI
В конце мая 2024 года базирующаяся в Бостоне AI-музыкальная компания Suno объявила о завершении раунда финансирования серии B на сумму 125 миллионов долларов, с оценкой после инвестиций в 500 миллионов долларов, и быстром росте числа пользователей до более чем 10 миллионов. Технологические гиганты, такие как Microsoft, даже интегрировали функции AI-создания музыки Suno непосредственно в свои продукты Copilot.
Suno была основана в 2022 году и до раунда B имела всего 12 сотрудников. В марте 2024 года Suno внезапно стала популярной, значительно улучшив свои возможности генерации музыки по тексту (Text to music), что было признано моментом ChatGPT для AI-музыки.
Однако успех Suno также вызвал споры. В конце июня 2024 года Американская ассоциация звукозаписывающих компаний (RIAA), представляющая три крупнейшие звукозаписывающие компании Sony, Universal и Warner и их лейблы, подала иск против Suno и другого AI-музыкального приложения Udio, обвиняя их в нарушении авторских прав и требуя компенсации в размере 150 000 долларов за каждое нарушающее права произведение.
Этот иск отражает влияние AI-музыки на традиционную музыкальную индустрию, а также споры вокруг данных для обучения AI-моделей. Некоторые в отрасли подозревают, что Suno могла использовать музыку, защищенную авторским правом, для обучения, поскольку даже такие технологические гиганты, как Google и Meta, не достигли таких результатов в области AI-музыки, как Suno.
02 Разбор AI-музыкальных моделей
2.1 Первый уровень сжатия и кодовая книга
Роджер Чен, технический директор по музыке в Meta, объясняет, что машинное обучение применяется в музыкальной сфере уже много лет. В отрасли признано, что если определить музыку как вибрации звука в воздухе, создающие различные частоты и амплитуды, то звук можно представить в виде электрического сигнала.
В AI-музыке различные музыкальные измерения могут быть выражены как последовательности токенов, включая ритм, темп, гармонию, тональность, структуру, мелодию, тексты песен и тембр вокала. Однако аудиоинформация очень богата, и трехминутная песня обычно содержит около 8 миллионов точек выборки, что представляет огромную проблему для обучения модели, если каждая точка выборки соответствует одному токену.
Только несколько лет назад Meta и Google достигли прорыва в технологии сжатия аудиовыборок, позволяющей преобразовывать аудиовыборки в меньшее количество токенов, сжимая их в десятки или сотни раз, что ускорило развитие AI-музыки.
Технологии, такие как SoundStream от Google и EnCodec от Meta, могут преобразовывать аудио в токены и восстанавливать их обратно в аудио практически без потерь. Эти технологии не только значительно сжимают аудио, но и могут преобразовывать различные музыкальные измерения (такие как ритм, темп, гармонические прогрессии, эмоции, жанр, инструменты, тексты, высота звука, длительность, стиль исполнителя и т.д.) в токены.
Преобразуя эти различные модальности в токены, можно использовать единую структуру большой языковой модели, позволяя модели изучать соответствия между определенными модальностями и аудиотокенами, тем самым создавая мощную систему генерации AI-музыки.
[Продолжение следует...]