新しい標準パイプライン
人間の選好データ
当初のRLHFパイプラインは、指示微調整用のデータやタスク完了の選好データなど、人間のデータに重点を置いていました。このようなデータは高価で厳重に保護されています。
現在、人間のデータが使用される唯一の側面は選好データです。Metaは選好データに1000万〜2000万ドル以上を費やした可能性があります。
オープンコミュニティにとっての課題は、このようなデータにおける人為的介入の程度を明らかにし、LLM-as-a-Judgeや報酬モデルなどの方法で代替できるかどうかを理解することです。
RLHFの拡張
Llama 3のアライメント責任者であるThomas Scialomは、RLHFの拡張性がはるかに高く、コストが低く、操作が容易で、通常はより良いパフォーマンスをもたらすと述べています。
業界では、指示微調整(IFT)をRLHF拡張の出発点としてのみ使用しています。SFTデータは主に、以前のモデルがカバーしていなかった特定の領域に焦点を当て、それを基にRLHFを拡張します。
RLHFは反復プロセスであり、モデルの生成プロセスによって継続的に改善できます。Llama 3.1は6ラウンド、Llama 2は5ラウンド、Nemotronは4ラウンドの選好データトレーニングを行い、それ以前にも複数ラウンドの指示微調整がありました。
複数ラウンドの反復を行う主な理由は実現可能性の考慮によるものかもしれません:
- データがアノテーション会社から実験室に段階的に送られる
- 小規模な複数ラウンドのトレーニングを行うことで、最終製品の配信リスクを軽減できる
同様の反復RLHF手法は、Anthropicが提案した「憲法AI」にまで遡ることができますが、オープンソースコミュニティはこの結果を大規模に再現していないようです。
現在、学術界は「オンラインDPOトレーニング」に注目しています。これは方向性は似ていますが、各ラウンド間のデータにはそれほど注目していません。プロセスが自動化されれば、オンラインDPOが将来的に主流になるでしょう。
各チームのポストトレーニング段階でのアルゴリズム選択は、そこまで固定的である必要はありません。DPOとPPOにはそれぞれ長所と短所があり、前者は拡張が容易ですが、PPOに触発された手法(オンラインRLなど)はより高いパフォーマンス上限を持っています。
現在、これらのアプローチは主に簡潔性を考慮しています。これらのチームはまだ比較的新しく、モジュラーシステムを構築中だからです。
合成データ
新しいRLHFサイクルの重要な部分は、ほとんどのタスクで人間の能力を超える合成指示データです。
モデルを少し改善し、より良い指示を生成できれば、チェックポイントを更新して「再スタート」します。
Metaは論文で明確に「405Bモデルを使用して、より小さなモデルのポストトレーニング品質を向上させた」と述べています。Googleは蒸留によってGemini Flashを作成しましたが、実際にはほとんどの最先端モデルが同様のステップを含んでいる可能性があります。
OpenAIが次世代モデルを50兆トークンのデータで訓練しているという噂があり、その大部分が合成データだとされています。昨年、Anthropicが「プレトレーニング規模の憲法AIコーパス」を持っているという噂もあり、今では理にかなっています。
これらのAI企業が合成データの重要性に気づいたのは12〜18ヶ月前だと思われます。モデル出力を自己反復トレーニングに使用しなくなった時期です。しかし、Metaは他のより優れたオープンモデルの恩恵を受けているため、異なります。
今日のポストトレーニングから、合成データによるモデル崩壊の問題が誇張されていたことがわかります。元のデータを破棄し、生成された新しいデータのみを残すという人為的に設定された環境でのみ、モデル崩壊が発生します。