与えられた解答手順のエラーを特定する。
これにより、モデルが単に答えを暗記したり推測したりすることを防ぎ、テストの漏洩に関する懸念を排除します。
MR-Benを使用して、JiaのチームはGPT4-Turbo、Claude3.5-Sonnet、GLM4、Qwen2-70Bなど、多くのオープンソースおよびクローズドソースのモデルを評価しました。
このデータセットのすべてのコードとデータはオープンソース化されています。
馴染みのある質問、全く新しいタスク
大規模言語モデルの現在の主流の評価方法は、標準化された人間のテスト - 多肢選択問題や穴埋め問題を使用しています。
このアプローチには明確な基準があり、直感的な指標があり、自然に議論に値する定量的な結果を生み出します。
しかし、著者らはこの方法は「信頼できない」と主張しています。現代の大規模言語モデルは一般的に思考の連鎖を用いて最終的な答えを生成するからです。
事前学習済みモデルが事前学習中に数兆のトークンを見ていることを考えると、### 評価されたモデルが関連するデータをすでに見ていて、単に正解を「暗記」しているだけなのかどうかを判断するのは難しいです。
さらに、評価は主に最終的な答えをチェックするため、### モデルが適切な理解と推論に基づいて正しい選択肢を選んだのかどうかは不明確です。
学術界はGSM8KやMMLUなどのデータセットを継続的にアップグレードしていますが、多言語版や難しい問題の導入など、多肢選択や穴埋め形式の限界から逃れることはできません。
さらに、これらのデータセットは現在深刻な ### 飽和の問題に直面しており、大規模言語モデルがピークパフォーマンスに達し、徐々に識別力を失っています。
これに対処するため、JiaのチームはMIT、清華大学、ケンブリッジ大学などの著名な大学や、中国の主要なアノテーション企業と協力して、複雑な問題解決の推論プロセスに焦点を当てた評価データセットMR-Benを作成しました。
MR-BenはGSM8K、MMLU、LogiQA、MHPPなどの重要な大規模モデルの事前学習データセットの質問に基づいています。「採点スタイル」のパラダイムシフトを適用して、より挑戦的で、より識別力があり、真の推論能力をよりよく反映する新しいデータセットを作成しています。
新しい質問を見つけたり、既存の質問を修正してモデルの堅牢性をテストしたりするのではなく、MR-Benはモデルを「テスト受験者」から「採点者」に直接変換し、既存の解答プロセスを評価させます。これにより、モデルに教師として行動させることで、知識ポイントの習熟度をテストします!
具体的には、JiaのチームはGSM8K、MMLU、LogiQA、MHPPなどの主流の評価データセットを数学/物理/化学/生物学、コーディング、論理、医学などのカテゴリーに整理し、異なる難易度レベルを設定しました。
各カテゴリーと収集した質問について、チームは対応するステップバイステップの解答プロセスを慎重に収集しました。これらは修士号や博士号を持つ訓練された専門家によってアノテーションされました。
アノテーション中、解答プロセスが正しいかどうか、エラーがどこで発生するか、エラーの理由などが綿密に特定されます。モデルの採点結果と人間の専門家の採点を比較することで、モデルの知識ポイントの習熟度が明らかになります。
評価の観点から見ると、MR-Benが提案する方法は、モデルに解答プロセスの各ステップの前提、仮定、論理を注意深く分析させ、推論プロセスをシミュレートして現在のステップが正解につながるかどうかを判断させることを要求します。
この「採点」スタイルの評価は単に質問に答えるよりもはるかに挑戦的ですが、暗記による過大評価を効果的に回避します。答えを暗記できるだけの学生は、有能な採点者になるのに苦労するでしょう。
GPT4-Turboが最高のパフォーマンスを示す
Jiaのチームはいくつかの有名な大規模言語モデルを評価し、一部のモデルでは複数のバージョンをテストしました。
クローズドソースモデルの中では、GPT4-Turboが最高のパフォーマンスを示しました(ただし、「採点」時に計算エラーを検出できませんでした)。デモ(k=1)とノーデモ(k=0)の両方の設定で、ほとんどの科目で他のモデルをリードしています。
Zhipu AIのGLMモデルがリーダーボードで2位にランクインし、Claudeの最新バージョン3.5-Sonnetを上回りました。
しかし、モデル間には大きな差があります。最も強力なパフォーマーであるGPT4-Turboでさえ、MR-Benデータセットで50点未満のスコアを記録しており、そのパフォーマンスはまだ飽和には程遠いことを示しています。
さらに、一部の高性能オープンソースモデルが特定の商用モデルに追いついています。
MR-Benチームは作業中にいくつかの興味深い現象も発見しました:
-
低リソースシナリオでは、小規模モデルが顕著な強みを示しました。Phi-3-miniはMR-Ben評価で小規模モデルの中で際立っており、数千億のパラメータを持つモデルを凌駕したり匹敵したりしており、ファインチューニングデータの重要性を示しています。
-
MR-Benのシナリオは複雑な論理解析とステップバイステップの推論を含みます。few-shotモードでは、過度に長いコンテキストが実際にモデルを混乱させ、パフォーマンスの低下につながりました。
-
MR-Benは、プロンプト戦略間の違いを調べるために、多数の生成-反映-再生成のアブレーション実験を評価しました。これは低パフォーマンスのモデルには効果がなく、GPT4-Turboのような高パフォーマンスのモデルにはほとんど効果がありませんでした。中レベルのモデルでは、時々エラーを修正しましたが、新しいエラーも導入したため、パフォーマンスがわずかに向上しました。
-
MR-Benの評価科目を知識ベース、論理ベース、計算ベース、アルゴリズムベースのカテゴリーに大まかに分類すると、異なるモデルが推論タイプ全体で様々な強みと弱みを示しました。
JiaのチームはGitHubにワンクリック評価方法をアップロードしています。1回のテストで約12Mトークンを消費します。開発者は自分のモデルを評価し、結果を提出できます。MR-Benチームはリーダーボードを迅速に更新します。