Systèmes d'IA victimes de 9 effondrements dus à des attaques malveillantes : une étude d'Oxford et Cambridge fait la couverture de Nature

Les données synthétiques générées peuvent présenter des limitations, similaires au manque de diversité génétique causé par la consanguinité.

Des recherches ont montré que l'utilisation de données générées par l'IA pour entraîner des modèles d'IA peut conduire au phénomène d'"effondrement du modèle". Les principales conclusions sont les suivantes :

  1. Si une grande quantité de contenu généré par l'IA est utilisée dans les données d'entraînement, le modèle développera des défauts irréversibles, et les événements à faible probabilité de la distribution de contenu originale disparaîtront.

  2. Cet effet est appelé "effondrement du modèle", similaire à la production de descendants de mauvaise qualité par consanguinité.

  3. Les chercheurs ont entraîné un modèle initial avec des articles de Wikipédia, puis ont entraîné plusieurs générations de modèles avec du texte généré par la génération précédente.

  4. Les résultats montrent que la qualité de sortie du modèle se dégrade rapidement avec l'augmentation du nombre d'itérations :

    • La génération 0 commence à présenter des erreurs factuelles et des symboles étranges
    • La génération 5 devient complètement incohérente
    • La génération 9 présente encore plus de contenu non pertinent et de caractères illisibles
  5. Cela indique que l'utilisation de données générées par l'IA pour entraîner des modèles conduit à une dégénérescence sur plusieurs générations, aboutissant finalement à un effondrement.

  6. Pour éviter cette situation, il est nécessaire d'utiliser davantage de données de haute qualité générées par des humains pour l'entraînement.

  7. Avec l'afflux massif de contenu IA sur Internet, il deviendra plus difficile et précieux d'obtenir de véritables données humaines à l'avenir.

En conclusion, cette étude met en garde contre les risques potentiels de l'utilisation abusive de données générées par l'IA pour entraîner des modèles, et souligne l'importance des données humaines de haute qualité.