AI-Audiogroßmodelle: Technische Entschlüsselung hinter dem globalen Trend

Drei Schlüsselarchitekturen unterstützen die freie Generierung von 44,1 kHz hochwertigem Stereo-Kurzaudio

Stable Audio Open stellt ein Text-zu-Audio-Modell mit drei Hauptarchitekturen vor:

Autoencoder: Komprimiert Wellenformdaten auf handhabbare Sequenzlängen
T5-basiertes Text-Embedding
Transformer-basiertes Diffusionsmodell (DiT): Arbeitet im latenten Raum des Autoencoders

Als Variante von Stable Audio 2 nahm Stable Audio Open Anpassungen bei der Verwendung von Trainingsdaten und einigen architektonischen Aspekten vor. Es verwendet einen völlig anderen Datensatz und setzt T5 anstelle von CLAP (Contrastive Language-Audio Pretraining) ein.

Als Open-Source-Gratismodell kann Stable Audio Open keine kohärenten vollständigen Tracks generieren und ist nicht für vollständige Songs, Melodien oder Gesang optimiert.

Stability AI erklärt, dass sich Stable Audio Open auf die Erstellung von Audio-Demos und Soundeffekten konzentriert und in der Lage ist, frei 44,1 kHz hochwertige Stereo-Audios mit einer Länge von bis zu 47 Sekunden zu generieren. Nach professionellem Training eignet sich das Modell gut für die Erstellung von Drumbeats, Instrumentenloops, Umgebungsgeräuschen, Foley-Aufnahmen und anderen Audiosamples für Musikproduktion und Sounddesign.

Ein wesentlicher Vorteil dieser Open-Source-Version besteht darin, dass Benutzer das Modell basierend auf ihren eigenen Audiodaten feinabstimmen können.

Trainingsprozess betont Urheberrechtsschutz

Inmitten der rasanten Entwicklung der generativen KI intensivieren sich die Debatten über den Einsatz von KI in der Musikindustrie, insbesondere in Bezug auf Urheberrechtsfragen.

Stability AI erklärt, dass Stable Audio Open zur Respektierung der Urheberrechte der Schöpfer Datensätze von Freesound und Free Music Archive (FMA) verwendet, wobei alle verwendeten Aufnahmen unter Creative Commons (CC) Lizenzen veröffentlicht wurden.

Um sicherzustellen, dass kein urheberrechtlich geschütztes Material verwendet wird, behauptet Stability AI, einen Audio-Tagger zu verwenden, um Musiksamples in Freesound zu identifizieren und die identifizierten Samples an Audible Magic's Content-Detection-Unternehmen zu senden, um sicherzustellen, dass potenziell urheberrechtlich geschützte Musik aus dem Datensatz entfernt wird.

Fazit: Open-Source, kostenloses Modell macht Text-zu-Audio zugänglicher

Die Einführung von Stable Audio Open demonstriert Stability AI's Innovation und Fortschritt bei Text-zu-Audio-Modellen. Während das Modell Einschränkungen bei der Audiolänge und Kohärenzgenerierung hat, sind seine Vorteile offensichtlich. Es kann kostenlos hochwertige 44,1 kHz Stereo-Audios generieren und auf Consumer-GPUs laufen, was die Einstiegshürde für die Text-zu-Audio-Nutzung senkt.

Gleichzeitig setzt Stable Audio Open einen neuen Maßstab für den Urheberrechtsschutz und öffnet die Audio-Generierungstechnologie. In Zukunft wird erwartet, dass Stable Audio Open mit fortschreitender Technologie und verbesserten ethischen Normen sein Potenzial in mehr Anwendungsszenarien realisieren und die Entwicklung und Verbreitung der Audio-Generierungstechnologie fördern wird.

Derzeit sind die Modellgewichte von Stable Audio Open auf der Plattform für maschinelles Lernen Hugging Face verfügbar. Stability AI ermutigt Sounddesigner, Musiker, Entwickler und alle, die an Audio interessiert sind, die Fähigkeiten des Modells zu erkunden und Feedback zu geben.

AI-Audiogroßmodelle: Technische Entschlüsselung hinter dem globalen Trend

Stable Audio Open: Ein innovatives Open-Source-Modell, das Text in hochwertige Audioaufnahmen umwandelt.

Drei Schlüsselarchitekturen unterstützen die freie Generierung von 44,1 kHz hochwertigem Stereo-Kurzaudio

Trainingsprozess betont Urheberrechtsschutz

Fazit: Open-Source, kostenloses Modell macht Text-zu-Audio zugänglicher