Controvérsia sobre o fracasso do treinamento de IA em Oxford e Cambridge: A IA autotreinada pode superar os obstáculos?

Aplicar dados gerados por IA com cautela para evitar a degradação do desempenho do modelo.

Na era da IA, os dados realmente se tornaram um recurso crucial. À medida que os dados humanos gradualmente se esgotam, os dados sintéticos são vistos como o caminho do futuro, mas devem ser usados com cautela.

Um artigo recente na capa da Nature gerou discussão. O estudo indica que usar apenas conteúdo gerado por IA no treinamento pode levar ao colapso do modelo. Isso provocou um amplo debate na comunidade de IA, com muitos argumentando que o cerne da questão está na qualidade dos dados, não nos dados sintéticos em si.

Para evitar o colapso do modelo, os especialistas propõem as seguintes sugestões:

  1. Usar dados mistos. O CEO da Scale AI acredita que dados puramente sintéticos não podem trazer ganhos de informação, e deve-se usar uma mistura de dados do mundo real, envolvimento de especialistas humanos e motores de lógica formal.

  2. Adotar métodos de aprendizagem por reforço. Pesquisadores de instituições como Meta propõem recuperar e melhorar o desempenho do modelo através do método de "feedback de classificação e poda".

  3. Utilizar supervisão humana. Estudos mostram que filtrar dados de alta qualidade através de supervisão humana é mais eficaz e menos custoso do que a rotulagem manual direta.

  4. Combinar com dados reais. Nos experimentos, depender apenas de dados gerados leva a uma queda no desempenho, enquanto combinar dados reais e feedback pode melhorar o desempenho.

Em geral, os dados sintéticos têm potencial, mas precisam ser usados com cautela e combinados com outros métodos para evitar o colapso do modelo e alcançar melhorias de desempenho. A direção futura pode ser uma combinação de dados mistos e aprendizagem por reforço.

Endereço do artigo