En la era de la IA, los datos se han convertido en un recurso clave. A medida que los datos humanos se agotan gradualmente, los datos sintéticos se consideran la dirección del futuro, pero deben usarse con precaución.
Un artículo reciente en la portada de Nature ha generado debate. El estudio señala que si solo se utiliza contenido generado por IA en el entrenamiento, podría llevar al colapso del modelo. Esto ha provocado una amplia discusión en la comunidad de IA, y muchos creen que el problema central radica en la calidad de los datos y no en los datos sintéticos en sí.
Para evitar el colapso del modelo, los expertos proponen las siguientes sugerencias:
-
Usar datos mixtos. El CEO de Scale AI cree que los datos puramente sintéticos no pueden aportar ganancia de información, y se deben usar de forma mixta datos del mundo real, participación de expertos humanos y motores de lógica formal.
-
Adoptar métodos de aprendizaje por refuerzo. Investigadores de instituciones como Meta proponen recuperar y mejorar el rendimiento del modelo mediante el método de "retroalimentación de clasificación y poda".
-
Utilizar supervisión humana. Los estudios muestran que filtrar datos de alta calidad mediante supervisión humana es más efectivo y menos costoso que el etiquetado manual directo.
-
Combinar con datos reales. En los experimentos, depender únicamente de datos generados conduce a una disminución del rendimiento, mientras que combinar datos reales y retroalimentación puede mejorar el rendimiento.
En general, los datos sintéticos tienen potencial, pero deben usarse con precaución y combinarse con otros métodos para evitar el colapso del modelo y lograr mejoras en el rendimiento. La dirección futura podría ser una combinación de datos mixtos y aprendizaje por refuerzo.