"イチゴ"を待っていたのに、"ケール"がやってきた
世界中が"イチゴ計画"に注目していたにもかかわらず、反抗的なOpenAIは常に期待を裏切るようです。あなたが"イチゴ"を求めても、彼らはあえて"ケール"を提供します。
北京時間14日午前2時、OpenAIは公式ウェブサイトで、人間が検証したSWE-benchのサブセットをリリースしていると発表しました。このサブセットは、AIモデルが実世界のソフトウェア問題を解決する能力をより確実に評価できるものです。
SWE-bench Hugging Faceアドレス:
https://huggingface.co/datasets/princeton-nlp/SWE-bench_Verified
準備フレームワークの一環として(準備フレームワークはOpenAIが最先端モデルを安全に開発・展開するための方法セット)、OpenAIはモデルの自律的行動能力を追跡、評価、予測するための一連の指標を開発しました。
ソフトウェアエンジニアリングタスクを自律的に完了する能力は、最先端モデルの自律リスクカテゴリーにおける中程度のリスクレベルの重要な構成要素でした。ソフトウェアエンジニアリングタスクの複雑さ、生成されたコードを正確に評価することの難しさ、実世界の開発シナリオをシミュレートする課題のため、これらの能力を評価することは困難です。したがって、OpenAIの準備方法では、評価自体を慎重に検討し、リスク係数を過大評価または過小評価する可能性を最小限に抑える必要がありました。
この方法セットの中で最も人気のあるソフトウェアエンジニアリング評価スイートの1つがSWE-benchです。これは、大規模言語モデルがGitHub上の実際のソフトウェア問題を解決できるかどうか、そしてどの程度まで問題を解決できるかを評価するために使用できます。ベンチマークには、エージェントにコードリポジトリと問題の説明を提供し、その問題を解決するパッチを生成するよう要求することが含まれます。
SWE-benchのランキングによると、2024年8月5日現在、コーディングエージェントはSWE-benchで顕著な進歩を遂げており、最高スコアのエージェントはSWE-benchで20%、SWE-bench Liteで43%のスコアを獲得しています。
テストの結果、SWE-benchの一部のタスクは解決が困難または不可能である可能性があり、これによりSWE-benchがモデルの自律的ソフトウェアエンジニアリング能力を系統的に過小評価していることが判明しました。そのため、OpenAIはSWE-benchの作者と協力して、ベンチマークの新バージョンでこれらの問題に対処し、より正確な評価を提供できるようにしました。
では、SWE-benchの背景はどのようなものでしょうか?
SWE-benchテストセットの各サンプルは、GitHub上の12のオープンソースPythonリポジトリのいずれかで解決されたGitHubの問題に基づいて作成されています。各サンプルには関連するプルリクエスト(PR)があり、そこにはソリューションコードとコードの正確性を検証するための単体テストが含まれています。これらの単体テストは、PRのソリューションコードを追加する前は失敗しますが、追加後は合格するため、FAIL_TO_PASSテストと呼ばれます。各サンプルにはまた、PR合併前後の両方で合格するPASS_TO_PASSテストも関連付けられており、これらはコードベースの既存の無関係な機能がPRによって破壊されていないかを確認するために使用されます。
SWE-benchの各サンプルについて、エージェントはGitHubの問題からの元のテキスト(問題文と呼ばれる)を受け取り、コードベースへのアクセス権が与えられます。これらを使用して、エージェントは問題を解決するためにコードベース内のファイルを編集する必要があります。テストはエージェントには表示されません。
提案された編集はFAIL_TO_PASSとPASS_TO_PASSを実行してテストされます。テストに合格すれば、問題が解決されたことを意味します。PASS_TO_PASSテストに合格すれば、編集がコードベースの無関係な部分を誤って破壊していないことを意味します。編集は両方のテストセットに合格して初めて、元のGitHubの問題を完全に解決したことになります。
SWE-benchを準備状況評価として採用
SWE-benchが準備フレームワークと潜在的に関連していることを考慮し、研究者はベンチマークの堅牢性と信頼性を向上させる方法を見つけることを目指しました。そのため、3つの主要な改善領域が特定されました:
ソリューションの正確性を評価するための単体テストは通常、特定すぎる場合があり、場合によっては問題と無関係です。これにより、正しいソリューションが拒否される可能性があります。
多くのサンプルの問題の説明が不明確で、問題が何であるか、どのように解決するかが明確でない場合があります。
エージェントがSWE-benchの開発環境を確実に設定することが難しい場合があり、どのようなソリューションを採用しても、意図せずに単体テストが失敗する可能性があります。この場合、完全に有効なソリューションが不正確と評価される可能性があります。
以下は、最初の問題を説明する例です。
SWE-benchサンプルscikit-learn__scikit-learn-14520のタスクは、エージェントにscikit-learnリポジトリの問題を解決させることです。この問題文は、関数のcopyパラメータがユーザーによって指定できるが、ライブラリによって無視されている(その動作は代わりに関数内でハードコードされている)と報告しています:
上記の問題を解決するエージェントは、まず関数の動作が意図的なものかエラーかという問題に取り組み、次に問題を解決するためにコードベースに変更を加える必要があります。SWE-benchの設定によると、エージェントが提案するソリューションは、問題を最初に解決したPRから抜粋された以下のテストに合格する必要があります:
このテストは、copyパラメータを使用する際にソリューションがDeprecationWarningを発生させる必要があることを明示的にチェックしていますが、上記の問題文の元の問題文ではこの要件が伝えられていません。さらに、エージェントがDeprecationWarningを発生させるべきだと認識していたとしても、テストはエージェントが非推奨メッセージを完全に一致させることを要求しており、これはエージェントがアクセスできないPRでの議論の後に結論付けられたものです。
エージェントは主要な問題文からのみ問題の説明を得ており、合格する必要があるテストを見ることができないことに注意してください。このような設定では、エージェントがSWE-benchでこのサンプルを解決することはほぼ不可能です。
SWE-benchで検証済み
これらの問題に対処するため、OpenAIは専門のソフトウェア開発者と協力して、適切な範囲の単体テストと明確に指定された問題の説明を得るために、SWE-benchテストセットの各サンプルをスクリーニングする人間による注釈活動を開始しました。
OpenAIはSWE-benchの作者と共に、SWE-bench Verifiedをリリースしました:これは元のSWE-benchテストセットのサブセットで、人間の注釈者によって問題がないと検証された500のサンプルが含まれています。このバージョンは、元のSWE-benchとSWE-bench Liteテストセットに取って代わります。さらに、OpenAIはすべてのSWE-benchテストサンプルの人間による注釈もリリースしました。
同時に、OpenAIはSWE-benchの作者と協力して、SWE-benchの新しい評価ツールを開発しました。これはコンテナ化されたDocker環境を使用して、SWE-benchでの評価をより簡単かつ信頼性の高いものにします。
SWE-bench Verifiedでは、GPT-4oがサンプルの33.2%を解析し、最高性能のオープンソースフレームワークAgentlessのSWE-benchでのスコアは以前の16%の2倍になりました。
"イチゴ計画"の公式発表は来ませんでしたが、このテストセットは前菜程度にしか過ぎません。では、このようなテストセットのためにOpenAIが騒ぎ立てる価値はあるのでしょうか?
1週間前、OpenAIのCEO Sam Altmanはイチゴの画像を含むツイートを投稿し、「庭の夏が好きだ」というキャプションを付けました。画像の4つのイチゴは、おそらくGPT-4の新バージョンが推論に特化して設計され、創造と対話に特化して設計されたGPT-4oと一緒に実行できる可能性を示唆しています。これはOpenAIが新モデルStrawberryをリリースすることについて様々な推測を引き起こしました。
ここ2日間、X上の情報提供者@iruletheworldmoはStrawberryのリリースに関連するメッセージを頻繁に投稿し、OpenAIが太平洋時間8月13日午前10時に新モデル - 推論に焦点を当てたAI "イチゴ計画"(Strawberry)をリリースすると述べました。コミュニティ全体が様々な期待に満ちていました。
謎の"イチゴ計画"とは?
OpenAIの新しい"イチゴ計画"は、ChatGPTがより自由にウェブを検索し、複雑な問題を解決できるようにします。
"イチゴ計画"は7月12日に初めて海外メディアによってリークされました。情報筋とロイターが審査した内部文書によると、ChatGPTの製造元OpenAIは"Strawberry"というコードネームのプロジェクトで、AIモデルの新しいアプローチを研究しているとのことです。
しかし、このプロジェクトの詳細は以前に報告されたことがなく、マイクロソフトが支援するスタートアップは、提供するモデルタイプが高度な推論能力を提供できることを証明するために競争しています。
ロイターが5月に見たOpenAIの内部文書のコピーによると、OpenAIの内部チームがStrawberryを開発しているとのことです。ロイターはその文書の具体的な発行日を確認できませんでしたが、その文書にはOpenAIがStrawberryを研究にどのように使用する予定かの詳細が記載されていました。情報筋はロイターにこの計画について説明し、進行中の作業だと述べました。通信社はStrawberryが一般公開までどれくらいかかるかを確認できませんでした。
この情報筋によると、OpenAI内部でさえ、Strawberryの仕組みは厳重に秘密にされているとのことです。
文書には、Strawberryモデルを使用するプロジェクトが記述されており、その目的は同社のAIがクエリの回答を生成するだけでなく、事前に計画を立て、自律的かつ確実にインターネットをナビゲートし、OpenAIが"深い研究"と呼ぶものを実行できるようにすることだと情報筋は述べています。
海外メディアが10人以上のAI研究者にインタビューしたところによると、これはAIモデルがこれまで解決していない問題です。
当時、StrawberryとこのArticleで報告された詳細について尋ねられたとき、OpenAIの広報担当者は声明で次のように述べました:「私たちは、私たちのAIモデルが私たちと同じように世界を見て理解できるようになることを望んでいます。新しいAI能力の継続的な研究は業界の一般的な慣行であり、これらのシステムの推論能力が時間とともに向上すると皆が信じています。」
広報担当者はイチゴに関する質問に直接答えませんでした。
Googleの挑戦
Strawberryは常に「琵琶を抱えて半分隠す」状態でしたが、今回OpenAIが突然宣伝を始めたのは、Googleがほぼ同時に行った「Made by Google 2024」ハードウェアイベントを追撃するためだと言わざるを得ません。
このイベントで、Googleは最新のハードウェア製品を発表しました。これには長く待たれていた次世代Pixelスマートフォン:Pixel 9