01 Die Popularität und Kontroverse von Suno AI
Ende Mai 2024 gab das in Boston ansässige KI-Musikunternehmen Suno bekannt, dass es eine Serie-B-Finanzierung in Höhe von 125 Millionen US-Dollar abgeschlossen hat, mit einer Bewertung nach der Investition von 500 Millionen US-Dollar und einem schnellen Wachstum der Nutzerzahl auf über 10 Millionen. Technologiegiganten wie Microsoft integrierten Sunos KI-Musikerstellungsfunktionen direkt in ihre Copilot-Produkte.
Suno wurde 2022 gegründet und hatte vor der Serie-B-Finanzierung nur 12 Mitarbeiter. Im März 2024 erlebte Suno einen plötzlichen Durchbruch, als seine Fähigkeit zur Texterstellung von Musik (Text to Music) erheblich verbessert wurde, was als ChatGPT-Moment für KI-Musik angesehen wurde.
Sunos Erfolg hat jedoch auch Kontroversen ausgelöst. Ende Juni 2024 reichte die Recording Industry Association of America (RIAA) im Namen der drei großen Plattenfirmen Sony, Universal und Warner sowie ihrer Labels eine Klage gegen Suno und eine andere KI-Musik-App namens Udio ein, in der sie Urheberrechtsverletzungen vorwarf und 150.000 US-Dollar Schadensersatz pro verletztes Werk forderte.
Diese Klage spiegelt die Auswirkungen der KI-Musik auf die traditionelle Musikindustrie wider sowie die Kontroversen um die Trainingsdaten von KI-Modellen. Einige Brancheninsider vermuten, dass Suno möglicherweise urheberrechtlich geschützte Musik für das Training verwendet hat, da selbst Technologiegiganten wie Google und Meta in ihren KI-Musikbemühungen nicht so erfolgreich waren wie Suno.
02 Analyse des KI-Musikmodells
2.1 Erste Ebene der Kompression und Codebuch
Roger Chen, Leiter der Musiktechnologie bei Meta, erklärt, dass maschinelles Lernen seit Jahren in der Musikbranche eingesetzt wird. Die Branche hat erkannt, dass, wenn Musik als Schwingungen von Schall in der Luft definiert wird, die verschiedene Frequenzen und Amplituden erzeugen, Klang als elektrisches Signal markiert werden kann.
In der KI-Musik können verschiedene musikalische Dimensionen als Token-Sequenzen ausgedrückt werden, einschließlich Rhythmus, Tempo, Harmonie, Tonalität, Abschnitte, Melodie, Texte und Gesangstimbre. Allerdings sind Audioinformationen sehr reichhaltig, und ein dreiminütiges Lied enthält typischerweise fast 8 Millionen Abtastpunkte, was eine enorme Herausforderung für das Modelltraining darstellen würde, wenn jeder Abtastpunkt einem Token entspräche.
Erst vor einigen Jahren, als Meta und Google Durchbrüche in der Audio-Sampling-Kompressionstechnologie erzielten, die es ermöglichten, Audio-Samples in eine geringere Anzahl von Token umzuwandeln, mit Kompressionsraten von zehn bis hundert zu eins, begann die Entwicklung der KI-Musik sich zu beschleunigen.
Technologien wie Googles SoundStream und Metas EnCodec können Audio in Token umwandeln und es fast verlustfrei in Audio zurückverwandeln. Diese Technologien können nicht nur Audio erheblich komprimieren, sondern auch verschiedene musikalische Dimensionen (wie Takt, Tempo, Akkordfortschreitung, Emotion, Genre, Instrument, Texte, Tonhöhe, Länge, Sängerstil usw.) in Token umwandeln.
Durch die Umwandlung dieser verschiedenen Modalitäten in Token kann ein einheitliches Großsprachmodell-Framework verwendet werden, das es dem Modell ermöglicht, die Beziehungen zwischen bestimmten Modalitäten und Audio-Token zu erlernen und so ein leistungsfähiges KI-Musikgenerierungssystem aufzubauen.
[Fortsetzung folgt...]