Pesquisas de instituições, incluindo Oxford e Cambridge, descobriram que treinar grandes modelos de linguagem usando dados sintéticos pode levar ao colapso do modelo. Esta descoberta foi destaque na capa da Nature.
Os pesquisadores testaram o modelo OPT-125m da Meta, perguntando sobre arquitetura medieval. Enquanto as primeiras rodadas de respostas foram razoáveis, na nona iteração o modelo começou a produzir resultados sem sentido.
O autor principal do artigo observou que eles haviam considerado que os dados sintéticos poderiam introduzir alguns erros, mas ficaram surpresos com a rapidez com que o modelo se degradou.
Três tipos de erros contribuem para o colapso do modelo:
- Erro de aproximação estatística - Devido a tamanhos de amostra limitados
- Erro de expressividade da função - Devido a limitações nas capacidades de aproximação do modelo
- Erro de aproximação da função - Causado por limitações no processo de aprendizagem
Para avaliar o impacto nos modelos de linguagem, os pesquisadores ajustaram o modelo OPT-125m da Meta com dados do WikiText-2. Eles geraram dados de treinamento sintéticos a partir do modelo ajustado e os usaram para treinar gerações subsequentes.
Os resultados mostraram erros crescentes ao longo do tempo, com os modelos esquecendo eventos de baixa probabilidade e produzindo resultados mais homogêneos antes do colapso completo. Fenômenos semelhantes foram observados em modelos VAE e GMM.
Mitigar esse problema é desafiador. Algumas empresas estão explorando a "marca d'água" de conteúdo gerado por IA para excluí-lo dos dados de treinamento, mas isso requer coordenação entre as empresas.
Isso sugere que modelos treinados em dados anteriores da internet podem representar melhor o mundo real, potencialmente dando uma vantagem à primeira onda de grandes modelos de linguagem.