Un estudio ha descubierto que el uso de datos generados por IA para entrenar modelos de IA puede llevar al fenómeno de "colapso del modelo". Las principales conclusiones son:
-
Si se usa una gran cantidad de contenido generado por IA en los datos de entrenamiento, el modelo desarrollará defectos irreversibles y los eventos de baja probabilidad en la distribución de contenido original desaparecerán.
-
Este efecto se conoce como "colapso del modelo", similar a la endogamia que produce descendencia de baja calidad.
-
Los investigadores entrenaron un modelo inicial con artículos de Wikipedia, y luego usaron texto generado por el modelo de la generación anterior para entrenar múltiples generaciones de modelos.
-
Los resultados mostraron que la calidad de la producción del modelo se deterioró rápidamente a medida que aumentaba el número de iteraciones:
- La generación 0 comenzó a mostrar errores factuales y símbolos extraños
- La generación 5 se convirtió completamente en galimatías
- La generación 9 produjo más contenido irrelevante y código ilegible
-
Esto indica que el uso de datos generados por IA para entrenar modelos conduce a una degeneración multigeneracional y eventualmente al colapso.
-
Para evitar esta situación, es necesario utilizar más datos de alta calidad generados por humanos para el entrenamiento.
-
A medida que el contenido de IA inunde Internet, obtener datos humanos genuinos se volverá más difícil y valioso en el futuro.
En resumen, este estudio advierte sobre los riesgos potenciales del uso indebido de datos generados por IA para entrenar modelos y enfatiza la importancia de los datos humanos de alta calidad.