AI modelos de audio a gran escala: Descifrando la tecnología detrás de la tendencia global

Stable Audio Open: un modelo innovador de código abierto capaz de convertir texto en audio de alta calidad.

Tres arquitecturas clave respaldan la generación libre de audio corto estéreo de alta calidad de 44.1kHz

Stable Audio Open introduce un modelo de texto a audio con tres arquitecturas principales:

  1. Autocodificador: Comprime datos de forma de onda a longitudes de secuencia manejables
  2. Incrustación de texto basada en T5
  3. Modelo de difusión basado en Transformer (DiT): Opera en el espacio latente del autocodificador

Como variante de Stable Audio 2, Stable Audio Open realizó ajustes en la adopción de datos de entrenamiento y algunos aspectos arquitectónicos. Utiliza un conjunto de datos completamente diferente y emplea T5 en lugar de CLAP (Preentrenamiento Contrastivo de Lenguaje-Audio).

Como modelo gratuito de código abierto, Stable Audio Open no puede generar pistas completas coherentes y no está optimizado para canciones completas, melodías o voces.

Stability AI afirma que Stable Audio Open se enfoca en la creación de demos de audio y efectos de sonido, capaz de generar libremente audio estéreo de alta calidad de 44.1kHz de hasta 47 segundos de duración. Después del entrenamiento profesional, el modelo es adecuado para crear ritmos de batería, bucles de instrumentos, sonidos ambientales, grabaciones de foley y otras muestras de audio para producción musical y diseño de sonido.

Una ventaja clave de esta versión de código abierto es que los usuarios pueden ajustar el modelo basándose en sus datos de audio personalizados.

El proceso de entrenamiento enfatiza la protección de derechos de autor

En medio del rápido desarrollo de la IA generativa, los debates sobre el uso de la IA en la industria musical se están intensificando, especialmente en lo que respecta a cuestiones de derechos de autor.

Stability AI afirma que para respetar los derechos de autor de los creadores, Stable Audio Open utiliza conjuntos de datos de Freesound y Free Music Archive (FMA), con todas las grabaciones utilizadas publicadas bajo licencias Creative Commons (CC).

Para asegurar evitar cualquier material con derechos de autor, Stability AI afirma usar un etiquetador de audio para identificar muestras de música en Freesound, enviando las muestras identificadas a la compañía de detección de contenido Audible Magic para asegurar la eliminación de música potencialmente protegida por derechos de autor del conjunto de datos.

Conclusión: El modelo de código abierto y gratuito hace que el texto a audio sea más accesible

El lanzamiento de Stable Audio Open demuestra la innovación y el progreso de Stability AI en modelos de texto a audio. Aunque el modelo tiene limitaciones en la longitud del audio y la generación de coherencia, sus ventajas son evidentes. Puede generar audio estéreo de alta calidad de 44.1kHz de forma gratuita y ejecutarse en GPUs de grado de consumidor, reduciendo la barrera para el uso de texto a audio.

Mientras tanto, Stable Audio Open establece un nuevo punto de referencia para la protección de derechos de autor mientras abre la tecnología de generación de audio. En el futuro, a medida que la tecnología continúe avanzando y las normas éticas mejoren, se espera que Stable Audio Open realice su potencial en más escenarios de aplicación, promoviendo el desarrollo y la popularización de la tecnología de generación de audio.

Actualmente, los pesos del modelo Stable Audio Open están disponibles en la plataforma de modelos de aprendizaje automático Hugging Face. Stability AI anima a diseñadores de sonido, músicos, desarrolladores y cualquier persona interesada en audio a explorar las capacidades del modelo y proporcionar comentarios.