OpenAI veröffentlicht "abschließende Arbeit" zur Super-Alignment-Forschung: Große und kleine Modelle im Wettstreit verbessern die Lesbarkeit der Ausgabe

Modelle gegeneinander spielen lassen

OpenAI-Forscher haben herausgefunden, dass es bei von großen Modellen generierten Inhalten einen Kompromiss zwischen Genauigkeit und Lesbarkeit gibt:

Wenn man die Genauigkeit optimiert, leidet die Lesbarkeit; wenn man die Lesbarkeit als Ziel setzt, geht die Genauigkeit etwas verloren.

Selbst bei einfachen Aufgaben auf Grundschulniveau in Mathematik ist der Unterschied leicht zu erkennen. OpenAI nennt dies die "Verständlichkeitssteuer".

Die Verständlichkeit der von Modellen generierten Inhalte für Menschen ist jedoch eine wichtige Voraussetzung für genaue Beurteilungen und hat daher auch Auswirkungen auf die Sicherheit.

Abgesehen davon bestimmt die Verständlichkeit der Inhalte direkt, ob das Modell Menschen nützliche Hilfe leisten kann.

Diese Forschung wurde durch das 2021 von Wissenschaftlern der Universität Toronto vorgeschlagene "Beweiser-Verifizierer"-Spiel inspiriert und trainiert Modelle durch Spielmethoden.

Der Beweiser verfügt über starke Rechenleistung, kann komplexe Berechnungen durchführen und Beweise generieren. Seine Aufgabe ist es, den Verifizierer von der Richtigkeit einer Aussage zu überzeugen.

Der Verifizierer kann nur relativ einfache Berechnungen durchführen und muss durch Interaktion feststellen, ob der vom Beweiser vorgelegte Beweis glaubwürdig ist.

Ein Beispiel: Bei einer mathematischen Aufgabe soll der Ausdruck einer Funktion gefunden werden. Der Beweiser kennt diesen Ausdruck (aber nicht unbedingt korrekt) und möchte, dass der Verifizierer seiner Antwort glaubt.

Der Verifizierer kennt einige Funktionswerte für bestimmte Variablen und kann damit den Beweiser testen, indem er anhand der Genauigkeit der Antworten beurteilt, ob dieser die korrekte Funktion kennt.

Auf diese Weise versucht OpenAI, ein Gleichgewicht zwischen Genauigkeit und Lesbarkeit zu erreichen und mit relativ geringen Genauigkeitsverlusten eine höhere Lesbarkeit zu erzielen.

In diesem Projekt verwendete das OpenAI-Team einen Datensatz mit mathematischen Problemen, Lösungen und korrekten Antworten auf Grundschulniveau.

Als Modelle wurden verschiedene Größen der GPT-4-Serie gewählt, wobei die größeren als Beweiser und die kleineren als Verifizierer dienten.

Der Datensatz wurde zufällig in zwei gleich große Teilmengen aufgeteilt, die jeweils für das Training des Beweisers und des Verifizierers verwendet wurden.

Dem Beweiser wurden zwei Rollen zugewiesen: hilfreich und hinterlistig, die jeweils korrekte und falsche Lösungen generieren sollten.

Gemeinsam war beiden, dass sie ihre Lösungen so gestalten mussten, dass sie vom Verifizierer hohe Bewertungen erhielten.

Diese Rollen waren nicht festgelegt, der Beweiser musste ### abwechselnd beide spielen und wurde belohnt, wenn sein Verhalten zur gespielten Rolle passte.

Das Training erfolgte in mehreren Runden. In jeder Runde wählte das Team aus den vom Beweiser in der vorherigen Runde generierten Lösungen eine Stichprobe korrekter und falscher Beispiele aus.

Diese Beispiele dienten als Trainingsdaten für den Verifizierer in der aktuellen Runde. Durch überwachtes Lernen wurde der Verifizierer trainiert, seine Beurteilungsgenauigkeit zu verbessern und korrekte Lösungen höher zu bewerten als falsche.

In diesem Prozess trieb der hinterlistige Beweiser den Verifizierer ständig dazu an, seine Beurteilungsgenauigkeit zu verbessern, während der Verifizierer den Beweiser dazu brachte, Inhalte zu generieren, die seinen Bewertungspräferenzen entsprachen. Durch dieses Gegeneinander-Spielen erzielten beide gemeinsame Fortschritte.

Eine wichtige Voraussetzung für hohe Bewertungen war, dass die generierten Inhalte vom Verifizierer verstanden werden konnten. Indem man menschliche Präferenzen in den Verifizierer einbezog, konnte so die Interpretierbarkeit der Modellausgaben verbessert werden.

Ausgleich zwischen Genauigkeit und Lesbarkeit

Letztendlich erreichte diese spielbasierte Trainingsmethode ein gutes Gleichgewicht zwischen hoher Genauigkeit und hoher Verständlichkeit.

Traditionelle Trainingsmethoden konzentrierten sich nur auf die Genauigkeit des Modells selbst. Das Ergebnis war, dass die Antworten zwar genauer wurden, aber die menschlichen Beurteilungen immer ungenauer und langsamer wurden.

Da das OpenAI-Team menschliche Präferenzen in den Verifizierer einbezog, hing die Beurteilungsgenauigkeit des Verifizierers in gewissem Maße mit der menschlichen zusammen.

Die Endergebnisse bestätigten, dass die mit dieser Spielmethode trainierten Modelle (Beweiser) ohne signifikanten Verlust an Eigengenauigkeit zu schnelleren und genaueren menschlichen Beurteilungen führten, je mehr Trainingsrunden durchgeführt wurden.

Im Vergleich zur Baseline-Methode zeigte sich, dass nach 5 Runden die menschliche Beurteilungsgenauigkeit über 82% lag, während die Baseline nach 7000 Schritten weniger als 75% erreichte.

Zeitlich benötigte die Baseline für menschliche Beurteilungen fast 27 Sekunden, die neue Methode nur etwas über 26 Sekunden.

Für den Verifizierer verbesserte sich mit fortschreitendem Training auch seine Robustheit, sodass er falsche Antworten genauer erkennen konnte.

Neben der Bewertung der Effektivität dieser spielbasierten Trainingsmethode machte das OpenAI-Team während der Forschung noch einige weitere Entdeckungen:

Einfluss der Verifizierer-Größe: Zu klein führte zu instabilem Training, zu groß erschwerte die Verbesserung der Robustheit über mehrere Trainingsrunden. Ein Tausendstel bis ein Hundertstel der Beweiser-Größe erwies sich als optimal.

Die Fehler in bösartigen Lösungen wurden mit dem Training immer subtiler und lokaler, was zeigt, dass der Verifizierer den hinterlistigen Beweiser dazu trieb, gegnerische Beispiele zu generieren, die den echten Lösungen ähnlicher waren.

Mit zunehmender Anzahl an Trainingsrunden sank die Genauigkeit der menschlichen Bewerter beim hinterlistigen Beweiser etwas.

One More Thing

Da das für diese Forschung verantwortliche Superalignment-Team aufgelöst wurde und es sich um Sicherheitsfragen handelte, geriet OpenAIs Sicherheitsstrategie erneut in den Fokus der Aufmerksamkeit.

Zu diesem Thema gab OpenAI CTO Mira Murati Anfang dieses Monats ein exklusives Interview an der Johns Hopkins University.

Dabei erklärte Mira, dass OpenAI entgegen der Anschuldigung des ehemaligen Leiters des Superalignment-Teams, Jan Leike, nicht "Produkte (Prioritäten) vor Sicherheit gestellt" habe.

Sie fügte hinzu, dass die Arbeit am Superalignment trotz der Auflösung des Teams fortgesetzt werde.