Revolução da IA na música: avanços tecnológicos, disputas de direitos autorais e competição de capital

A ascensão da tecnologia de música por inteligência artificial está abalando o cenário tradicional da indústria musical. Este campo emergente não apenas desafia a posição de compositores e músicos, mas também representa uma ameaça para as partes interessadas existentes, como gravadoras e agências de direitos autorais. O rápido desenvolvimento da música por IA tem provocado intensos debates sobre a propriedade dos direitos de criação, a autenticidade artística e o futuro rumo da indústria musical.

01 O fenômeno e a controvérsia do Suno AI

No final de maio de 2024, a Suno, uma empresa de IA musical sediada em Boston, anunciou a conclusão de uma rodada de financiamento Série B de 125 milhões de dólares, atingindo uma avaliação pós-investimento de 500 milhões de dólares, com o número de usuários crescendo rapidamente para mais de 10 milhões. Gigantes tecnológicos como a Microsoft integraram diretamente as funcionalidades de criação musical por IA da Suno em seus produtos Copilot.

A Suno foi fundada em 2022 e tinha apenas 12 funcionários antes da rodada Série B. Em março de 2024, a Suno repentinamente se tornou viral, com sua capacidade de geração de música a partir de texto (Text to music) melhorando significativamente, sendo considerado o momento ChatGPT da música por IA.

No entanto, o sucesso da Suno também gerou controvérsias. No final de junho de 2024, a Recording Industry Association of America (RIAA), representando as três grandes gravadoras Sony, Universal e Warner e suas subsidiárias, entrou com uma ação contra a Suno e outro aplicativo de música por IA chamado Udio, acusando-os de violação de direitos autorais e exigindo uma indenização de 150.000 dólares por cada obra infringida.

Este processo reflete o impacto da música por IA na indústria musical tradicional, bem como a controvérsia em torno dos dados de treinamento dos modelos de IA. Alguns na indústria suspeitam que a Suno possa ter usado música com direitos autorais para treinamento, pois gigantes tecnológicos como Google e Meta não alcançaram resultados tão bons quanto a Suno no campo da música por IA.

02 Análise do modelo de música por IA

2.1 Primeira camada de compressão e codebook

Roger Chen, diretor de tecnologia musical da Meta, explica que o aprendizado de máquina tem sido aplicado no campo da música por muitos anos. A indústria reconheceu que, se a música for definida como vibrações sonoras no ar produzindo diferentes frequências e amplitudes, então o som pode ser marcado como sinais elétricos.

Na música por IA, várias dimensões musicais podem ser expressas como sequências de tokens, incluindo ritmo, tempo, harmonia, tonalidade, estrutura, melodia, letras e timbre vocal. No entanto, as informações de áudio são muito ricas, com uma música de 3 minutos geralmente contendo cerca de 8 milhões de pontos de amostragem, e se cada ponto de amostragem correspondesse a um token, seria um enorme desafio para o treinamento do modelo.

Até alguns anos atrás, quando Meta e Google fizeram avanços na tecnologia de compressão de amostragem de áudio, capazes de converter amostras de áudio em uma quantidade menor de tokens, com taxas de compressão de dezenas a centenas de vezes, o desenvolvimento da música por IA começou a acelerar.

Tecnologias como o SoundStream do Google e o EnCodec da Meta podem converter áudio em tokens e restaurá-lo em áudio quase sem perdas. Essas tecnologias não apenas podem comprimir significativamente o áudio, mas também converter várias dimensões musicais (como batida, tempo, progressão de acordes, emoção, gênero, instrumentos, letras, altura, duração, estilo do cantor, etc.) em tokens.

Ao converter essas diferentes modalidades em tokens, é possível usar uma estrutura de modelo de linguagem grande unificada, permitindo que o modelo aprenda as correspondências entre certas modalidades e tokens de áudio, construindo assim um poderoso sistema de geração de música por IA.

[Continua...]