01 L'engouement et la controverse autour de Suno AI
Fin mai 2024, Suno, une entreprise d'IA musicale basée à Boston, a annoncé avoir levé 125 millions de dollars lors d'un tour de financement de série B, atteignant une valorisation post-investissement de 500 millions de dollars, avec une croissance rapide de sa base d'utilisateurs dépassant les 10 millions. Des géants technologiques comme Microsoft ont même intégré directement les fonctionnalités de création musicale par IA de Suno dans leurs produits Copilot.
Fondée en 2022, Suno ne comptait que 12 employés avant ce tour de financement. En mars 2024, Suno a connu un succès soudain, avec une amélioration significative de sa capacité à générer de la musique à partir de texte (Text to music), considérée comme le moment ChatGPT de la musique IA.
Cependant, le succès de Suno a également suscité des controverses. Fin juin 2024, la Recording Industry Association of America (RIAA), représentant Sony, Universal et Warner, les trois principales maisons de disques et leurs labels, a intenté un procès contre Suno et une autre application de musique IA, Udio, les accusant de violation de droits d'auteur et réclamant 150 000 dollars de dommages et intérêts pour chaque œuvre contrefaite.
Ce procès reflète l'impact de la musique IA sur l'industrie musicale traditionnelle, ainsi que la controverse entourant les données d'entraînement des modèles d'IA. Certains dans l'industrie soupçonnent que Suno pourrait avoir utilisé de la musique protégée par des droits d'auteur pour son entraînement, car même des géants technologiques comme Google et Meta n'ont pas obtenu de résultats aussi impressionnants dans le domaine de la musique IA.
02 Déconstruction des modèles de musique IA
2.1 Première couche de compression et livre de codes
Roger Chen, responsable de la technologie musicale chez Meta, explique que l'apprentissage automatique est appliqué dans le domaine de la musique depuis de nombreuses années. L'industrie a reconnu que si la musique est définie comme des vibrations sonores dans l'air produisant différentes fréquences et amplitudes, alors le son peut être marqué comme un signal électrique.
Dans la musique IA, diverses dimensions musicales peuvent être exprimées sous forme de séquences de tokens, y compris le rythme, le tempo, l'harmonie, la tonalité, les sections, la mélodie, les paroles et le timbre vocal. Cependant, les informations audio sont très riches, une chanson de 3 minutes contenant généralement près de 8 millions de points d'échantillonnage, ce qui représenterait un énorme défi pour l'entraînement du modèle si chaque point d'échantillonnage correspondait à un token.
Ce n'est que depuis quelques années que Meta et Google ont réalisé des percées dans la technologie de compression d'échantillons audio, permettant de convertir les échantillons audio en un nombre beaucoup plus réduit de tokens, avec un taux de compression allant de plusieurs dizaines à plusieurs centaines de fois, accélérant ainsi le développement de la musique IA.
Des technologies comme SoundStream de Google et EnCodec de Meta peuvent convertir l'audio en tokens et le reconvertir en audio presque sans perte. Ces technologies peuvent non seulement compresser considérablement l'audio, mais aussi convertir diverses dimensions musicales (comme le rythme, le tempo, la progression des accords, l'émotion, le genre, les instruments, les paroles, la hauteur, la durée, le style du chanteur, etc.) en tokens.
En convertissant ces différentes modalités en tokens, il est possible d'utiliser un cadre de modèle de langage unifié, permettant au modèle d'apprendre les correspondances entre certaines modalités et les tokens audio, créant ainsi un puissant système de génération de musique IA.
[À suivre...]