Studien haben ergeben, dass die Verwendung von KI-generierten Daten zum Training von KI-Modellen zu einem "Modellzusammenbruch" führen kann. Die Hauptergebnisse lauten wie folgt:
-
Wenn in den Trainingsdaten in großem Umfang KI-generierte Inhalte verwendet werden, können irreversible Mängel im Modell auftreten, wobei Ereignisse mit geringer Wahrscheinlichkeit aus der ursprünglichen Inhaltsverteilung verschwinden.
-
Dieser Effekt wird als "Modellzusammenbruch" bezeichnet und ähnelt der Inzucht, die zu minderwertigen Nachkommen führt.
-
Die Forscher trainierten ein Ausgangsmodell mit Wikipedia-Artikeln und trainierten dann mehrere Generationen von Modellen mit Text, der von der vorherigen Generation generiert wurde.
-
Die Ergebnisse zeigten, dass die Qualität der Modellausgabe mit zunehmender Anzahl der Iterationen rapide abnahm:
- Generation 0 begann mit Faktenfehlern und seltsamen Symbolen
- Generation 5 wurde zu völligem Unsinn
- Generation 9 zeigte mehr irrelevante Inhalte und Kauderwelsch
-
Dies deutet darauf hin, dass die Verwendung von KI-generierten Daten zum Training von Modellen zu einer Degeneration über mehrere Generationen und schließlich zum Zusammenbruch führt.
-
Um dies zu vermeiden, ist es notwendig, mehr von Menschen generierte, hochwertige Daten für das Training zu verwenden.
-
Mit der zunehmenden Flut von KI-Inhalten im Internet wird es in Zukunft schwieriger und wertvoller werden, echte menschliche Daten zu erhalten.
Zusammenfassend warnt diese Studie vor den potenziellen Risiken des Missbrauchs von KI-generierten Daten zum Training von Modellen und unterstreicht die Bedeutung hochwertiger menschlicher Daten.