Synthetische Daten unterstützen Meta Llama 3 Training? Untersuchung des KI-Datenmangels

Synthetische Daten bieten umfassende Vorteile und versprechen, das Problem der Datenknappheit zu lindern.

Heutzutage ist eine "Ölkrise" in der Welt der künstlichen Intelligenz aufgetreten. Fast jedes KI-Unternehmen sucht verzweifelt nach neuen Quellen für Sprachdaten, aber selbst noch so viele Daten scheinen den Appetit der großen KI-Modelle nicht stillen zu können. Zudem erkennen immer mehr Content-Plattformen den Wert ihrer Daten und beginnen, sie für sich zu behalten. Daher ist "synthetische Daten" zu einer neuen Richtung geworden, die die gesamte KI-Branche erforscht.

Allerdings war lange Zeit unbekannt, ob synthetische Daten überhaupt brauchbar sind, bis Dr. Thomas Scialom, ein KI-Forscher bei Meta, kürzlich die Antwort auf diese Frage gab. Laut seiner Aussage hat das Open-Source-Großmodell Llama 3 von Meta beim Training nicht auf von Menschen geschriebene Antworten zurückgegriffen, sondern basierte vollständig auf synthetischen Daten, die von Llama 2 generiert wurden.

Bei der Erläuterung der Trainingsdetails von Llama 3 erwähnte Thomas Scialom die Anwendung synthetischer Daten in verschiedenen Szenarien des Großmodells, wie Feedback zur Code-Ausführung, Übersetzung von Programmiersprachen, Rückübersetzung von Dokumenten, Frage-Antwort-Systeme für lange Texte, Zusammenfassung langer Dokumente und Reasoning über Code-Repositories. Dies erklärt auch, wie Meta es geschafft hat, dass das im Frühjahr dieses Jahres eingeführte Llama 3-Großmodell über 400 Milliarden Parameter umfasst und das Siebenfache der Trainingsdaten von Llama 2 erreicht.

Synthetische Daten beziehen sich im Allgemeinen auf neue Daten, die durch Algorithmen erzeugt werden, die die Eigenschaften von Daten aus der realen Welt nachahmen. Wie funktioniert also diese "Selbsterhebung"? Zwei von den Teams von Meta und Microsoft veröffentlichte Papiere enthüllen das Geheimnis des Trainings von Großmodellen mit synthetischen Daten. Meta bezeichnet Großmodelle, die mit synthetischen Daten trainiert werden, als "selbstbelohnende Sprachmodelle", bei denen das Großmodell selbst Trainingsdaten generiert, deren Qualität bewertet und dann diese Daten verwendet, um sich selbst zu trainieren.

Selbstbelohnende Sprachmodelle sind in der Tat eine Anwendung des sogenannten AI Feedback Reinforcement Learning (RLAIF). Metas spezifisches Vorgehen besteht darin, zunächst ein Initialmodell basierend auf einer kleinen Menge manuell annotierter Daten vorzutrainieren und dann das Initialmodell mehrere Kandidatenantworten basierend auf Fragen generieren zu lassen. Unter Verwendung der von Dr. Andrew Ng vorgeschlagenen LLM-as-a-Judge-Methode lässt man das große Sprachmodell seine eigenen generierten Antworten bewerten und bildet basierend auf diesen Bewertungen neue Trainingsdaten, um das Modell weiter zu trainieren.

In diesem Prozess ist es am wichtigsten, dass das Großmodell in der Lage ist, neue Anweisungen nach Beispielen zu generieren und zu bewerten und diese dann seinem eigenen Trainingssatz hinzuzufügen. Da die von Computern verwendete Binärsprache sich von der menschlichen Sprache unterscheidet, müssen Forscher die menschliche Sprache in eine für Computer verständliche Form umwandeln, die sogenannte "Texteinbettung". Das Forschungsteam von Microsoft beispielsweise definierte eine Reihe von Texteinbettungsaufgaben und entwarf spezifische Prompts für diese Aufgaben, um große Sprachmodelle bei der Generierung spezifischer Daten anzuleiten.

Die von den Forschern erstellten spezifischen Prompts enthalten zwei Schlüsselelemente: Frage und Rolle, die dann kombiniert werden. Zum Beispiel kann die Kombination von Fahrer und mathematischen Problemen Aufgaben für die Grund- und Mittelschule generieren und das große Sprachmodell anleiten, Daten aus der entsprechenden Perspektive zu synthetisieren. Dies ist das Geheimnis selbstbelohnender Sprachmodelle. Anschließend müssen die Forscher nur noch die generierten Daten bereinigen und formatieren, Duplikate entfernen und Formatfehler korrigieren, um sicherzustellen, dass sie den Trainingsanforderungen entsprechen.

Der Vorteil synthetischer Daten besteht darin, dass sie die Eigenschaften realer Daten mathematisch und physikalisch widerspiegeln können und, da keine manuelle Annotation erforderlich ist, menschliche Fehler aufgrund von Datenerfassungs- und Übertragungsprozessen sowie inkonsistenten manuellen Standards erheblich reduzieren. Die Frage ist nun, wenn synthetische Daten das Problem der Knappheit von Trainingsdaten und die daraus resultierenden hohen Kosten lösen können, warum neigen dann viele KI-Unternehmen immer noch dazu, von Menschen generierte Daten zu erschließen oder zu kaufen?

Der Hauptgrund dafür ist, dass trotz sorgfältig gestalteter Prompts und überwachtem Training die inhärenten Voreingenommenheiten und Halluzinationen großer Sprachmodelle immer noch Rauschen in den Datensatz einführen können. Große Sprachmodelle, die auf der Grundlage falscher, halluzinierter oder voreingenommener synthetischer Daten trainiert werden, können nicht auf reale Szenarien verallgemeinert werden. Große Sprachmodelle, die auf synthetischen Daten basieren, müssen vermeiden, durch maschinelles Lernen "verunreinigt" zu werden, und je höher der Anteil synthetischer Daten in den Trainingsdaten ist, desto schwieriger wird es, die Fähigkeit zum Verständnis natürlicher Sprache zu verbessern.

Zum Beispiel wies Stanford-Professor Percy Liang darauf hin, dass synthetischen Daten die wertvolle "Menschlichkeit" fehlt, so dass große Modelle, die auf synthetischen Daten trainiert wurden, nicht ausreichen, um AGI zu erreichen. Noch wichtiger ist, dass synthetische Daten verwendet werden können, um Bereiche zu validieren oder zu erweitern, die Menschen bereits kennen, aber keine Bereiche aufdecken können, die im ursprünglichen Datensatz nicht vorhanden sind. Ihre Grenzen sind die Grenzen des ursprünglichen Datensatzes.

Daher ist es theoretisch möglich, dass Meta Llama 3 auf der Grundlage von synthetischen Daten trainiert hat, die von Llama 2 generiert wurden, aber sie haben uns nicht gesagt, wie viel Arbeitskraft und Zeit dieser Prozess tatsächlich gekostet hat. Obwohl synthetische Daten tatsächlich billiger sein können als reale Daten, ist es immer noch unbekannt, wie viel es kostet, ungeeignete synthetische Daten auszusortieren.

Wenn synthetische Daten in jeder Hinsicht wirklich billiger wären als reale Daten, hätten die großen KI-Unternehmen keinen Grund, weiterhin auf von Menschen generierte Daten zu setzen, selbst angesichts der Probleme mit Halluzinationen und KI-Ethik.