Des recherches ont montré que l'utilisation de données générées par l'IA pour entraîner des modèles d'IA peut conduire au phénomène d'"effondrement du modèle". Les principales conclusions sont les suivantes :
-
Si une grande quantité de contenu généré par l'IA est utilisée dans les données d'entraînement, le modèle développera des défauts irréversibles, et les événements à faible probabilité de la distribution de contenu originale disparaîtront.
-
Cet effet est appelé "effondrement du modèle", similaire à la production de descendants de mauvaise qualité par consanguinité.
-
Les chercheurs ont entraîné un modèle initial avec des articles de Wikipédia, puis ont entraîné plusieurs générations de modèles avec du texte généré par la génération précédente.
-
Les résultats montrent que la qualité de sortie du modèle se dégrade rapidement avec l'augmentation du nombre d'itérations :
- La génération 0 commence à présenter des erreurs factuelles et des symboles étranges
- La génération 5 devient complètement incohérente
- La génération 9 présente encore plus de contenu non pertinent et de caractères illisibles
-
Cela indique que l'utilisation de données générées par l'IA pour entraîner des modèles conduit à une dégénérescence sur plusieurs générations, aboutissant finalement à un effondrement.
-
Pour éviter cette situation, il est nécessaire d'utiliser davantage de données de haute qualité générées par des humains pour l'entraînement.
-
Avec l'afflux massif de contenu IA sur Internet, il deviendra plus difficile et précieux d'obtenir de véritables données humaines à l'avenir.
En conclusion, cette étude met en garde contre les risques potentiels de l'utilisation abusive de données générées par l'IA pour entraîner des modèles, et souligne l'importance des données humaines de haute qualité.