モデル同士の対戦
OpenAIの研究によると、大規模モデルが生成するコンテンツは、正確性と読みやすさの2つの次元でトレードオフが存在することが分かりました。
自身の正確性を目標に最適化すると、読みやすさが低下します。一方、読みやすさを目標にすると、自身の正確性が損なわれてしまいます。
小学校レベルの数学の単純なタスクでさえ、その差は容易に見て取れます。OpenAIはこれを「理解可能性税」と呼んでいます。
しかし、人間がモデルの生成内容を理解できるかどうかは、正確な判断を下すための重要な前提条件であり、安全性にも大きな影響を与えます。
それを別にしても、コンテンツの理解可能性は、モデルが人間に有用な助けをもたらせるかどうかを直接決定します。
この研究は、トロント大学の学者が2021年に提案した「証明者-検証者」ゲームにインスピレーションを受け、ゲーム形式でモデルを訓練しています。
証明者は強力な計算能力を持ち、複雑な計算や証明の生成が可能で、ある主張が正しいことを検証者に納得させることが任務です。
検証者は比較的単純な計算しか実行できず、対話プロセスを通じて証明者が提供した証明が信頼できるかどうかを判断する必要があります。
例えば、ある数学の問題で関数の表現式を求める必要があるとします。証明者はこの表現式を知っていますが(必ずしも正しいとは限りません)、検証者にその答えが正しいと信じてもらいたいと考えています。
検証者は、いくつかの独立変数に対応する関数値を知っているので、この情報を使って証明者をテストし、その回答の正確さから正しい関数を知っているかどうかを判断できます。
このような方法で、OpenAIは正確性と読みやすさのバランスを取ろうとしています。比較的少ない正確性の損失で、より高い読みやすさを獲得しようとしています。
このプロジェクトでは、OpenAIチームは小学校の数学問題、解決策、正解を含むデータセットを使用しました。
モデルには、異なる規模のGPT-4シリーズモデルが選ばれ、大規模なものが証明者として、小規模なものが検証者として使用されました。
このデータセットは、証明者と検証者の訓練用に、ランダムに2つの等しいサイズのサブセットに分割されました。
証明者には、有用(helpful)と狡猾(sneaky)という2つの役割が与えられ、それぞれ正しい解法と間違った解法を生成します。
しかし、両者に共通するのは、自分の解法が検証者から高得点を得られるようにする必要があることです。
これらの役割は固定ではなく、証明者は### 交互に演じる必要があり、行動が演じる役割と一致した場合に報酬を得ます。
訓練は複数のラウンドで行われ、各ラウンドでチームは前のラウンドで2つの証明者が生成した解決策から、正しいものと間違ったものをサンプリングします。
これらのサンプルは現在のラウンドの検証者訓練データとして使用され、教師あり学習を通じて検証者の判断の正確性を向上させ、検証者が正しい解決策に対して間違った解決策よりも高い評価を与えるようにします。
このプロセスにおいて、狡猾な証明者は検証者の判断精度を向上させ続け、検証者も証明者が生成するコンテンツをスコアリング基準に合わせるようにします。両者は相互の対戦を通じて共に進歩を遂げます。
高評価を得るための重要な前提条件の1つは、生成されたコンテンツが検証者に理解されることです。このようにして、検証者に人間の嗜好を導入するだけで、モデルの出力内容の解釈可能性を高めることができます。
正確性と可読性のバランス
最終的に、このようなゲーム形式の訓練方法は、高い正確性と高い理解可能性の間で良好なバランスを達成しました。
従来の訓練方法はモデル自体の正確性にのみ焦点を当てていたため、訓練が進むにつれて答えの正確性は向上しましたが、人間の判断はますます不正確になり、速度も遅くなりました。
OpenAIチームは人間の嗜好を検証者に導入したため、検証者の判断精度はある程度人間に関連しています。
最終結果も、このようなゲーム形式で訓練されたモデル(証明者)は、自身の正確性を大きく損なうことなく、訓練ラウンドが増えるにつれて人間がより速く、より正確に判断できるようになったことを確認しています。
ベースライン手法と比較すると、5ラウンド後に人間の判断精度が82%を超えたのに対し、ベースラインは7000ステップ後でも75%未満でした。
時間に関しては、ベースラインの人間の判断時間が27秒近くだったのに対し、新しい方法ではわずか26秒強でした。
また、検証者に関しては、訓練が進むにつれてその堅牢性も徐々に向上し、誤った回答をより正確に識別できるようになりました。
このゲーム形式の訓練方法の効果評価に加えて、OpenAIチームは研究過程で他にもいくつかの発見をしました:
検証者の規模の影響:小さすぎると訓練が不安定になり、大きすぎると複数のラウンドの訓練で堅牢性を向上させるのが難しくなります。証明者の1/1000から1/100が最適な効果を示しました。
悪意のある解法の誤りは、訓練が進むにつれてより微妙で局所的になり、検証者が狡猾な証明者に実際の解法に近い敵対的サンプルを生成するよう促したことを示しています。
訓練ラウンドが増えるにつれて、人間の評価者の狡猾な証明者に対する正確性が若干低下しました。
もう一つのこと
この研究を行った超整列チームが解散し、安全性の問題を担当していたため、OpenAIの安全戦略が再び広く注目されています。
この問題について、OpenAIのCTOであるMira Muratiは今月初めにジョンズ・ホプキンス大学で特別インタビューを受けました。
その中でMiraは、OpenAIが超整列チームの前リーダーであるJan Leikeが非難したように「製品(の優先順位)を安全性よりも前に置いている」わけではないと述べました。
同時に彼女は、超整列チームは解散したものの、超整列の作業は継続していると述べました。