AI modelos de áudio de grande escala: Decifrando a tecnologia por trás da tendência global

Stable Audio Open: um modelo inovador de código aberto capaz de converter texto em áudio de alta qualidade.

Três Arquiteturas Chave Suportam a Geração Livre de Áudio Curto Estéreo de Alta Qualidade de 44.1kHz

O Stable Audio Open introduz um modelo de texto para áudio com três arquiteturas principais:

  1. Autocodificador: Comprime dados de forma de onda para comprimentos de sequência gerenciáveis
  2. Incorporação de texto baseada em T5
  3. Modelo de difusão baseado em Transformer (DiT): Opera no espaço latente do autocodificador

Como uma variante do Stable Audio 2, o Stable Audio Open fez ajustes na adoção de dados de treinamento e em alguns aspectos arquitetônicos. Ele usa um conjunto de dados completamente diferente e emprega T5 em vez de CLAP (Pré-treinamento Contrastivo de Linguagem-Áudio).

Como um modelo gratuito de código aberto, o Stable Audio Open não pode gerar faixas completas coerentes e não é otimizado para músicas completas, melodias ou vocais.

A Stability AI afirma que o Stable Audio Open se concentra na criação de demonstrações de áudio e efeitos sonoros, capaz de gerar livremente áudio estéreo de alta qualidade de 44.1kHz com até 47 segundos de duração. Após treinamento profissional, o modelo é bem adequado para criar batidas de bateria, loops de instrumentos, sons ambientes, gravações de foley e outras amostras de áudio para produção musical e design de som.

Uma vantagem chave desta versão de código aberto é que os usuários podem ajustar o modelo com base em seus dados de áudio personalizados.

Processo de Treinamento Enfatiza a Proteção de Direitos Autorais

Em meio ao rápido desenvolvimento da IA generativa, os debates sobre o uso de IA na indústria musical estão se intensificando, especialmente em relação a questões de direitos autorais.

A Stability AI afirma que, para respeitar os direitos autorais dos criadores, o Stable Audio Open usa conjuntos de dados do Freesound e Free Music Archive (FMA), com todas as gravações utilizadas publicadas sob licenças Creative Commons (CC).

Para garantir que nenhum material protegido por direitos autorais seja usado, a Stability AI afirma usar um marcador de áudio para identificar amostras de música no Freesound, enviando as amostras identificadas para a empresa de detecção de conteúdo Audible Magic para garantir a remoção de músicas potencialmente protegidas por direitos autorais do conjunto de dados.

Conclusão: Modelo de Código Aberto e Gratuito Torna o Texto para Áudio Mais Acessível

O lançamento do Stable Audio Open demonstra a inovação e o progresso da Stability AI em modelos de texto para áudio. Embora o modelo tenha limitações na duração do áudio e na geração de coerência, suas vantagens são evidentes. Ele pode gerar áudio estéreo de alta qualidade de 44.1kHz gratuitamente e rodar em GPUs de nível consumidor, reduzindo a barreira para o uso de texto para áudio.

Enquanto isso, o Stable Audio Open estabelece um novo padrão para proteção de direitos autorais ao mesmo tempo que abre a tecnologia de geração de áudio. No futuro, à medida que a tecnologia continua a avançar e as normas éticas melhoram, espera-se que o Stable Audio Open realize seu potencial em mais cenários de aplicação, promovendo o desenvolvimento e a popularização da tecnologia de geração de áudio.

Atualmente, os pesos do modelo Stable Audio Open estão disponíveis na plataforma de modelos de aprendizado de máquina Hugging Face. A Stability AI encoraja designers de som, músicos, desenvolvedores e qualquer pessoa interessada em áudio a explorar as capacidades do modelo e fornecer feedback.