Estudos descobriram que o uso de dados gerados por IA para treinar modelos de IA pode levar ao fenômeno de "colapso do modelo". As principais conclusões são as seguintes:
-
Se uma grande quantidade de conteúdo gerado por IA for usada nos dados de treinamento, o modelo desenvolverá defeitos irreversíveis, e eventos de baixa probabilidade da distribuição de conteúdo original desaparecerão.
-
Esse efeito é chamado de "colapso do modelo", semelhante à produção de descendentes de baixa qualidade por endogamia.
-
Os pesquisadores treinaram um modelo inicial usando artigos da Wikipédia e depois treinaram várias gerações de modelos usando texto gerado pela geração anterior.
-
Os resultados mostraram que, à medida que o número de iterações aumentava, a qualidade da saída do modelo diminuía rapidamente:
- A geração 0 começou a apresentar erros factuais e símbolos estranhos
- A geração 5 tornou-se completamente incoerente
- A geração 9 apresentou mais conteúdo irrelevante e caracteres ilegíveis
-
Isso indica que o uso de dados gerados por IA para treinar modelos leva à degeneração ao longo de várias gerações, resultando em colapso.
-
Para evitar essa situação, é necessário usar mais dados de alta qualidade gerados por humanos para treinamento.
-
Com o grande influxo de conteúdo de IA na internet, obter dados humanos genuínos se tornará mais difícil e valioso no futuro.
Em resumo, este estudo alerta sobre os riscos potenciais do uso excessivo de dados gerados por IA para treinar modelos e enfatiza a importância de dados humanos de alta qualidade.