Forschungen von Institutionen wie Oxford und Cambridge haben ergeben, dass das Training großer Sprachmodelle mit synthetischen Daten zum Zusammenbruch des Modells führen kann. Diese Erkenntnis wurde auf dem Titelblatt von Nature vorgestellt.
Die Forscher testeten Metas OPT-125m-Modell und befragten es zur mittelalterlichen Architektur. Während die ersten Antworten noch vernünftig waren, begann das Modell ab der neunten Iteration unsinnige Ausgaben zu produzieren.
Der Hauptautor der Studie bemerkte, dass sie zwar damit gerechnet hatten, dass synthetische Daten einige Fehler einführen könnten, aber von der Schnelligkeit der Verschlechterung des Modells überrascht waren.
Drei Arten von Fehlern tragen zum Zusammenbruch des Modells bei:
- Statistische Approximationsfehler - Aufgrund begrenzter Stichprobengrößen
- Funktionsausdrucksfehler - Durch Einschränkungen in den Approximationsfähigkeiten des Modells
- Funktionsapproximationsfehler - Verursacht durch Einschränkungen im Lernprozess
Um die Auswirkungen auf Sprachmodelle zu bewerten, feinten die Forscher Metas OPT-125m-Modell mit WikiText-2-Daten ab. Sie erzeugten synthetische Trainingsdaten aus dem verfeinerten Modell und verwendeten diese, um nachfolgende Generationen zu trainieren.
Die Ergebnisse zeigten zunehmende Fehler im Laufe der Zeit, wobei die Modelle Ereignisse mit geringer Wahrscheinlichkeit vergaßen und homogenere Ausgaben produzierten, bevor es zum vollständigen Zusammenbruch kam. Ähnliche Phänomene wurden bei VAE- und GMM-Modellen beobachtet.
Die Minderung dieses Problems ist eine Herausforderung. Einige Unternehmen erforschen die Möglichkeit, KI-generierte Inhalte zu "watermarken", um sie aus Trainingsdaten auszuschließen, aber dies erfordert eine Koordination zwischen den Unternehmen.
Dies deutet darauf hin, dass Modelle, die mit früheren Internetdaten trainiert wurden, die reale Welt möglicherweise besser repräsentieren und damit der ersten Welle großer Sprachmodelle einen Vorteil verschaffen könnten.