AI sistemas colapsan 9 veces por ataques maliciosos: Investigación de Oxford y Cambridge aparece en portada de Nature

Los datos sintéticos generados pueden tener limitaciones, similares a la falta de diversidad genética causada por la endogamia.

Un estudio ha descubierto que el uso de datos generados por IA para entrenar modelos de IA puede llevar al fenómeno de "colapso del modelo". Las principales conclusiones son:

  1. Si se usa una gran cantidad de contenido generado por IA en los datos de entrenamiento, el modelo desarrollará defectos irreversibles y los eventos de baja probabilidad en la distribución de contenido original desaparecerán.

  2. Este efecto se conoce como "colapso del modelo", similar a la endogamia que produce descendencia de baja calidad.

  3. Los investigadores entrenaron un modelo inicial con artículos de Wikipedia, y luego usaron texto generado por el modelo de la generación anterior para entrenar múltiples generaciones de modelos.

  4. Los resultados mostraron que la calidad de la producción del modelo se deterioró rápidamente a medida que aumentaba el número de iteraciones:

    • La generación 0 comenzó a mostrar errores factuales y símbolos extraños
    • La generación 5 se convirtió completamente en galimatías
    • La generación 9 produjo más contenido irrelevante y código ilegible
  5. Esto indica que el uso de datos generados por IA para entrenar modelos conduce a una degeneración multigeneracional y eventualmente al colapso.

  6. Para evitar esta situación, es necesario utilizar más datos de alta calidad generados por humanos para el entrenamiento.

  7. A medida que el contenido de IA inunde Internet, obtener datos humanos genuinos se volverá más difícil y valioso en el futuro.

En resumen, este estudio advierte sobre los riesgos potenciales del uso indebido de datos generados por IA para entrenar modelos y enfatiza la importancia de los datos humanos de alta calidad.