Forscher von Meta, UC Berkeley und NYU haben die Methode der Meta-Reward-Sprachmodelle vorgestellt, die darauf abzielt, eine "Superalignment" von KI-Modellen zu erreichen. Diese Methode lässt KI-Modelle gleichzeitig die Rollen von Akteur, Richter und Meta-Richter spielen, um durch Selbstbewertung und -verbesserung die Leistung zu steigern, ohne auf von Menschen annotierte Daten angewiesen zu sein.
Im Einzelnen umfasst die Meta-Reward-Methode folgende Schritte:
- Der Akteur generiert eine Antwort auf einen gegebenen Prompt
- Der Richter bewertet und benotet die Antwort
- Der Meta-Richter bewertet die Qualität der Benotung des Richters
- Basierend auf diesen Ergebnissen wird das Modell mit der DPO-Methode optimiert
Um das Problem der Längenpräferenz zu lösen, führten die Forscher einen Längenkontrollmechanismus ein. Sie entwickelten auch detaillierte Methoden zur Erstellung von Richterpräferenzdaten, einschließlich der Verwendung von Meta-Richter-Promptvorlagen und der Berücksichtigung von Positionspräferenzen.
In den Bewertungsexperimenten verwendeten die Forscher Llama-3-8B-Instruct als Seed-Modell und führten eine anfängliche Feinabstimmung auf dem EFT-Datensatz durch. Die Meta-Reward-Iteration verwendete 20.000 von Llama-2-70B-Chat generierte Prompts, wobei bei jeder Iteration 5.000 extrahiert wurden, insgesamt vier Iterationen.
Die experimentellen Ergebnisse zeigen, dass die Meta-Reward-Methode die Modellleistung signifikant verbessert. Zum Beispiel stieg die Gewinnrate bei AlpacaEval 2 von 22,9% auf 39,4% und übertraf damit GPT-4; bei Arena-Hard stieg sie von 20,6% auf 29,1%.
Diese Studie beweist weiter, dass Sprachmodelle das Potenzial haben, ihre Leistung durch Selbstverbesserung zu steigern und die Abhängigkeit von menschlicher Aufsicht zu reduzieren. Sie bietet neue Ideen und Methoden zur Erreichung eines "Superalignments" von KI-Systemen.