Trois architectures clés soutiennent la génération libre d'audio stéréo haute qualité 44,1 kHz de courte durée
Stable Audio Open introduit un modèle texte-audio avec trois architectures principales :
- Auto-encodeur : Compresse les données de forme d'onde à des longueurs de séquence gérables
- Intégration de texte basée sur T5
- Modèle de diffusion basé sur Transformer (DiT) : Opère dans l'espace latent de l'auto-encodeur
En tant que variante de Stable Audio 2, Stable Audio Open a apporté des ajustements dans l'adoption des données d'entraînement et certains aspects architecturaux. Il utilise un ensemble de données complètement différent et emploie T5 au lieu de CLAP (Contrastive Language-Audio Pretraining).
En tant que modèle gratuit open-source, Stable Audio Open ne peut pas générer des pistes complètes cohérentes et n'est pas optimisé pour les chansons complètes, les mélodies ou les voix.
Stability AI affirme que Stable Audio Open se concentre sur la création de démos audio et d'effets sonores, capable de générer librement de l'audio stéréo haute qualité 44,1 kHz jusqu'à 47 secondes. Après un entraînement professionnel, le modèle est bien adapté pour créer des rythmes de batterie, des boucles d'instruments, des sons d'ambiance, des enregistrements de bruitage et d'autres échantillons audio pour la production musicale et le design sonore.
Un avantage clé de cette version open-source est que les utilisateurs peuvent affiner le modèle en fonction de leurs propres données audio.
Le processus d'entraînement met l'accent sur la protection des droits d'auteur
Dans le contexte du développement rapide de l'IA générative, les débats sur l'utilisation de l'IA dans l'industrie musicale s'intensifient, en particulier concernant les questions de droits d'auteur.
Stability AI affirme que pour respecter les droits d'auteur des créateurs, Stable Audio Open utilise des ensembles de données de Freesound et Free Music Archive (FMA), avec tous les enregistrements utilisés publiés sous licences Creative Commons (CC).
Pour s'assurer d'éviter tout matériel protégé par des droits d'auteur, Stability AI prétend utiliser un étiqueteur audio pour identifier les échantillons musicaux dans Freesound, envoyant les échantillons identifiés à la société de détection de contenu Audible Magic pour garantir la suppression de la musique potentiellement protégée par des droits d'auteur de l'ensemble de données.
Conclusion : Le modèle open-source et gratuit rend le texte-audio plus accessible
Le lancement de Stable Audio Open démontre l'innovation et les progrès de Stability AI dans les modèles texte-audio. Bien que le modèle ait des limitations en termes de longueur audio et de génération cohérente, ses avantages sont évidents. Il peut générer gratuitement de l'audio stéréo haute qualité 44,1 kHz et fonctionner sur des GPU grand public, abaissant la barrière d'utilisation du texte-audio.
Parallèlement, Stable Audio Open établit une nouvelle référence en matière de protection des droits d'auteur tout en ouvrant la technologie de génération audio. À l'avenir, à mesure que la technologie continuera de progresser et que les normes éthiques s'amélioreront, Stable Audio Open devrait réaliser son potentiel dans davantage de scénarios d'application, favorisant le développement et la popularisation de la technologie de génération audio.
Actuellement, les poids du modèle Stable Audio Open sont disponibles sur la plateforme de modèles d'apprentissage automatique Hugging Face. Stability AI encourage les designers sonores, les musiciens, les développeurs et toute personne intéressée par l'audio à explorer les capacités du modèle et à fournir des commentaires.