AI sistema sofre ataque malicioso e falha 9 vezes: pesquisa de Oxford e Cambridge estampa capa da Nature

Os dados sintéticos gerados podem ter limitações, semelhantes à falta de diversidade genética causada pela endogamia.

Estudos descobriram que o uso de dados gerados por IA para treinar modelos de IA pode levar ao fenômeno de "colapso do modelo". As principais conclusões são as seguintes:

  1. Se uma grande quantidade de conteúdo gerado por IA for usada nos dados de treinamento, o modelo desenvolverá defeitos irreversíveis, e eventos de baixa probabilidade da distribuição de conteúdo original desaparecerão.

  2. Esse efeito é chamado de "colapso do modelo", semelhante à produção de descendentes de baixa qualidade por endogamia.

  3. Os pesquisadores treinaram um modelo inicial usando artigos da Wikipédia e depois treinaram várias gerações de modelos usando texto gerado pela geração anterior.

  4. Os resultados mostraram que, à medida que o número de iterações aumentava, a qualidade da saída do modelo diminuía rapidamente:

    • A geração 0 começou a apresentar erros factuais e símbolos estranhos
    • A geração 5 tornou-se completamente incoerente
    • A geração 9 apresentou mais conteúdo irrelevante e caracteres ilegíveis
  5. Isso indica que o uso de dados gerados por IA para treinar modelos leva à degeneração ao longo de várias gerações, resultando em colapso.

  6. Para evitar essa situação, é necessário usar mais dados de alta qualidade gerados por humanos para treinamento.

  7. Com o grande influxo de conteúdo de IA na internet, obter dados humanos genuínos se tornará mais difícil e valioso no futuro.

Em resumo, este estudo alerta sobre os riscos potenciais do uso excessivo de dados gerados por IA para treinar modelos e enfatiza a importância de dados humanos de alta qualidade.