AI-System durch böswillige Angriffe 9 Mal zum Absturz gebracht: Forschung von Oxford, Cambridge und anderen auf dem Titelblatt von Nature

Die generierten synthetischen Daten können Einschränkungen aufweisen, ähnlich wie die mangelnde genetische Vielfalt, die durch Inzucht verursacht wird.

Studien haben ergeben, dass die Verwendung von KI-generierten Daten zum Training von KI-Modellen zu einem "Modellzusammenbruch" führen kann. Die Hauptergebnisse lauten wie folgt:

  1. Wenn in den Trainingsdaten in großem Umfang KI-generierte Inhalte verwendet werden, können irreversible Mängel im Modell auftreten, wobei Ereignisse mit geringer Wahrscheinlichkeit aus der ursprünglichen Inhaltsverteilung verschwinden.

  2. Dieser Effekt wird als "Modellzusammenbruch" bezeichnet und ähnelt der Inzucht, die zu minderwertigen Nachkommen führt.

  3. Die Forscher trainierten ein Ausgangsmodell mit Wikipedia-Artikeln und trainierten dann mehrere Generationen von Modellen mit Text, der von der vorherigen Generation generiert wurde.

  4. Die Ergebnisse zeigten, dass die Qualität der Modellausgabe mit zunehmender Anzahl der Iterationen rapide abnahm:

    • Generation 0 begann mit Faktenfehlern und seltsamen Symbolen
    • Generation 5 wurde zu völligem Unsinn
    • Generation 9 zeigte mehr irrelevante Inhalte und Kauderwelsch
  5. Dies deutet darauf hin, dass die Verwendung von KI-generierten Daten zum Training von Modellen zu einer Degeneration über mehrere Generationen und schließlich zum Zusammenbruch führt.

  6. Um dies zu vermeiden, ist es notwendig, mehr von Menschen generierte, hochwertige Daten für das Training zu verwenden.

  7. Mit der zunehmenden Flut von KI-Inhalten im Internet wird es in Zukunft schwieriger und wertvoller werden, echte menschliche Daten zu erhalten.

Zusammenfassend warnt diese Studie vor den potenziellen Risiken des Missbrauchs von KI-generierten Daten zum Training von Modellen und unterstreicht die Bedeutung hochwertiger menschlicher Daten.