Na era da IA, os dados realmente se tornaram um recurso crucial. À medida que os dados humanos gradualmente se esgotam, os dados sintéticos são vistos como o caminho do futuro, mas devem ser usados com cautela.
Um artigo recente na capa da Nature gerou discussão. O estudo indica que usar apenas conteúdo gerado por IA no treinamento pode levar ao colapso do modelo. Isso provocou um amplo debate na comunidade de IA, com muitos argumentando que o cerne da questão está na qualidade dos dados, não nos dados sintéticos em si.
Para evitar o colapso do modelo, os especialistas propõem as seguintes sugestões:
-
Usar dados mistos. O CEO da Scale AI acredita que dados puramente sintéticos não podem trazer ganhos de informação, e deve-se usar uma mistura de dados do mundo real, envolvimento de especialistas humanos e motores de lógica formal.
-
Adotar métodos de aprendizagem por reforço. Pesquisadores de instituições como Meta propõem recuperar e melhorar o desempenho do modelo através do método de "feedback de classificação e poda".
-
Utilizar supervisão humana. Estudos mostram que filtrar dados de alta qualidade através de supervisão humana é mais eficaz e menos custoso do que a rotulagem manual direta.
-
Combinar com dados reais. Nos experimentos, depender apenas de dados gerados leva a uma queda no desempenho, enquanto combinar dados reais e feedback pode melhorar o desempenho.
Em geral, os dados sintéticos têm potencial, mas precisam ser usados com cautela e combinados com outros métodos para evitar o colapso do modelo e alcançar melhorias de desempenho. A direção futura pode ser uma combinação de dados mistos e aprendizagem por reforço.