AI revolución musical: avances tecnológicos, disputas de derechos de autor y competencia de capital

El auge de la tecnología de música de inteligencia artificial está sacudiendo el panorama tradicional de la industria musical. Este campo emergente no solo desafía la posición de compositores y músicos, sino que también representa una amenaza para las partes interesadas establecidas como las compañías discográficas y las agencias de derechos de autor. El rápido desarrollo de la música de IA ha provocado intensos debates sobre la propiedad de los derechos creativos, la autenticidad artística y el futuro rumbo de la industria musical.

01 El auge y la controversia de Suno AI

A finales de mayo de 2024, Suno, una empresa de IA musical con sede en Boston, anunció que había completado una ronda de financiación Serie B de 125 millones de dólares, alcanzando una valoración posterior de 500 millones de dólares, con un rápido crecimiento de usuarios a más de 10 millones. Gigantes tecnológicos como Microsoft incluso integraron directamente la función de creación musical de IA de Suno en sus productos Copilot.

Suno se fundó en 2022 y tenía solo 12 empleados antes de la ronda de financiación Serie B. En marzo de 2024, Suno se volvió repentinamente viral, con una mejora significativa en su capacidad de generación de música a partir de texto (Text to music), considerada como el momento ChatGPT de la música IA.

Sin embargo, el éxito de Suno también ha generado controversia. A finales de junio de 2024, la Asociación de la Industria Discográfica de América (RIAA), en representación de las tres grandes compañías discográficas Sony, Universal y Warner y sus sellos, presentó una demanda contra Suno y otra aplicación de música IA llamada Udio, acusándolas de infracción de derechos de autor y exigiendo una indemnización de 150.000 dólares por cada obra infractora.

Esta demanda refleja el impacto de la música IA en la industria musical tradicional, así como la controversia en torno a los datos de entrenamiento de los modelos de IA. Algunos en la industria sospechan que Suno podría haber utilizado música con derechos de autor para el entrenamiento, ya que gigantes tecnológicos como Google y Meta no han logrado resultados tan buenos en el campo de la música IA.

02 Desglose del modelo de música IA

2.1 Primera capa de compresión y libro de códigos

Roger Chen, director de tecnología musical de Meta, explica que el aprendizaje automático se ha aplicado en el campo de la música durante años. La industria reconoce que si la música se define como vibraciones de sonido en el aire que producen diferentes frecuencias y amplitudes, entonces el sonido puede marcarse como señales eléctricas.

En la música IA, varias dimensiones musicales pueden expresarse como secuencias de tokens, incluyendo ritmo, tempo, armonía, tonalidad, estructura, melodía, letras y timbre vocal. Sin embargo, la información de audio es muy rica, y una canción de 3 minutos generalmente contiene cerca de 8 millones de puntos de muestreo, lo que supone un enorme desafío para el entrenamiento del modelo si cada punto de muestreo corresponde a un token.

Hasta hace unos años, cuando Meta y Google lograron avances en la tecnología de compresión de muestreo de audio, pudiendo convertir las muestras de audio en una cantidad menor de tokens, con una tasa de compresión de decenas a cientos de veces, el desarrollo de la música IA comenzó a acelerarse.

Tecnologías como SoundStream de Google y EnCodec de Meta pueden convertir el audio en tokens y restaurarlo a audio prácticamente sin pérdidas. Estas tecnologías no solo pueden comprimir significativamente el audio, sino también convertir varias dimensiones musicales (como ritmo, tempo, progresión de acordes, emoción, género, instrumentos, letras, tono, duración, estilo del cantante, etc.) en tokens.

Al convertir estas diferentes modalidades en tokens, se puede utilizar un marco de modelo de lenguaje grande unificado, permitiendo que el modelo aprenda las correspondencias entre ciertas modalidades y los tokens de audio, construyendo así un poderoso sistema de generación de música IA.

[Continuará...]