Neue Standard-Pipeline
Menschliche Präferenzdaten
Die ursprüngliche RLHF-Pipeline konzentrierte sich auf menschliche Daten, einschließlich Daten für Instruktions-Feinabstimmung und Präferenzdaten für Aufgabenerfüllung. Diese Art von Daten ist kostspielig und streng geschützt.
Jetzt werden menschliche Daten nur noch für Präferenzdaten verwendet. Meta hat möglicherweise 10-20 Millionen Dollar oder mehr für Präferenzdaten ausgegeben.
Eine Herausforderung für die offene Community besteht darin, herauszufinden, wie stark diese Daten manuell bearbeitet wurden und ob sie durch Methoden wie LLM-as-a-Judge oder Belohnungsmodelle ersetzt werden können.
Erweiterung von RLHF
Thomas Scialom, Leiter der Ausrichtung von Llama 3, sagt, dass RLHF viel skalierbarer, kostengünstiger und einfacher zu handhaben ist und in der Regel zu besserer Leistung führt.
Die Industrie verwendet Instruktions-Feinabstimmung (IFT) nur als Ausgangspunkt für die Erweiterung von RLHF. SFT-Daten konzentrieren sich hauptsächlich auf spezifische Bereiche, die von früheren Modellen nicht abgedeckt wurden, und darauf aufbauend wird RLHF erweitert.
RLHF ist ein iterativer Prozess, bei dem der Generierungsprozess des Modells es ermöglicht, sich weiter zu verbessern. Llama 3.1 durchlief 6 Runden Präferenzdatentraining, Llama 2 5 Runden, Nemotron 4 Runden, davor gab es mehrere Runden Instruktions-Feinabstimmung.
Mehrere Iterationsrunden werden möglicherweise hauptsächlich aus Machbarkeitsgründen durchgeführt:
- Daten werden in Chargen von Annotationsunternehmen an Labore gesendet
- Mehrere Runden kleinerer Trainings können das Risiko bei der Auslieferung des Endprodukts reduzieren
Ähnliche iterative RLHF-Methoden gehen auf Anthropics "Constitutional AI" zurück, aber die Open-Source-Community scheint diese Ergebnisse nicht in großem Maßstab reproduziert zu haben.
Derzeit konzentriert sich die akademische Welt auf "Online-DPO-Training", was in eine ähnliche Richtung geht, aber weniger Fokus auf die Daten zwischen den Runden legt. Sobald der Prozess automatisiert ist, wird Online-DPO die Zukunft sein.
Die Algorithmuswahl für die Nachtrainingsphase sollte bei den verschiedenen Teams nicht so starr sein. DPO und PPO haben jeweils Vor- und Nachteile, ersteres ist leichter zu skalieren, aber PPO-inspirierte Methoden (wie Online-RL) haben ein höheres Leistungspotenzial.
Derzeit werden diese Ansätze hauptsächlich aus Gründen der Einfachheit gewählt, da diese Teams noch relativ neu sind und modulare Systeme aufbauen.
Synthetische Daten
Ein wichtiger Teil des neuen RLHF-Zyklus sind synthetische Instruktionsdaten, die menschliche Fähigkeiten in den meisten Aufgaben übertreffen.
Wenn das Modell eine kleine Verbesserung erzielen und bessere Anweisungen generieren kann, "beginnt man von vorn" und aktualisiert den Checkpoint.
Meta gibt in ihrem Paper explizit an, dass sie "ein 405B-Modell verwenden, um die Nachtrainingsqualität unserer kleineren Modelle zu verbessern"; Google erreicht dies durch die Destillation von Gemini Flash, aber in Wirklichkeit enthalten wahrscheinlich die meisten fortschrittlichen Modelle ähnliche Schritte.
Es wird berichtet, dass OpenAI das nächste Modell mit 50 Billionen Token trainiert, wovon der Großteil synthetische Daten sind. Letztes Jahr gab es Gerüchte, dass Anthropic ein "Constitutional AI-Korpus im Vortrainingsmaßstab" besitzt, was jetzt plausibel erscheint.
Diese KI-Unternehmen haben die Bedeutung synthetischer Daten wahrscheinlich vor 12-18 Monaten erkannt, als sie aufhörten, Modellausgaben für selbstiteratives Training zu verwenden. Meta ist anders, da es von anderen besseren offenen Modellen profitiert.
Aus dem heutigen Nachtraining lässt sich erkennen, dass das Problem des Modellzusammenbruchs durch synthetische Daten übertrieben wurde. Modellzusammenbrüche treten nur in künstlich geschaffenen Umgebungen auf, wenn ursprüngliche Daten verworfen und nur neu generierte Daten beibehalten werden.