Meta、UC バークレー、NYU の研究者たちが、AI モデルの「超対齐」を実現するための元報酬言語モデルの方法を提案しました。この方法では、AI モデルが actor、judge、meta-judge の 3 つの役割を同時に演じ、自己評価と改善を通じてパフォーマンスを向上させ、人間のアノテーションデータに依存しません。
具体的に、元報酬方法は以下のステップを含みます:
- Actor が与えられたプロンプトに対する応答を生成
- Judge が応答を評価し、スコアを付ける
- Meta-judge が judge のスコアリングの質を評価
- 上記の結果に基づき、DPO 法を使用してモデルを最適化
長さの偏りの問題を解決するために、研究者たちは長さ制御メカニズムを導入しました。また、meta-judge プロンプトテンプレートの使用や位置の偏りの考慮など、judge の選好データの作成方法を詳細に設計しました。
評価実験では、研究者たちは Llama-3-8B-Instruct をシードモデルとして使用し、EFT データセットで初期微調整を行いました。元報酬の反復では、Llama-2-70B-Chat によって生成された 2 万個のプロンプトを使用し、各反復で 5000 個を抽出し、合計 4 回反復しました。
実験結果は、元報酬方法がモデルのパフォーマンスを大幅に向上させたことを示しています。例えば、AlpacaEval 2 での勝率は 22.9% から 39.4% に増加し、GPT-4 を上回りました。Arena-Hard では 20.6% から 29.1% に向上しました。
この研究は、言語モデルが自己改善を通じてパフォーマンスを向上させ、人間の監督への依存を減らす可能性があることをさらに証明しています。これは AI システムの「超対齐」を実現するための新しいアイデアと方法を提供しています。