アップルチームは、ToolSandboxと呼ばれる大規模言語モデルのツール呼び出し能力のベンチマークを発表しました。このテストベンチマークは、シナリオベースの評価方法を採用しており、実際の環境でのモデルのパフォーマンスをより良く反映することができます。従来の基準では注目されていなかった対話型インタラクションや状態依存性などの重要なシナリオを導入しています。
ToolSandboxは、既存のテスト基準におけるシナリオベースの評価の不足を補い、テスト条件と実際のアプリケーションとのギャップを縮小しています。インタラクションにおいて、著者はGPT-4にユーザーと被テストモデルの役割を演じさせ、現実世界のシナリオをシミュレートしています。
ToolSandboxには、単一/複数ツールの呼び出し、単一/複数ターンの対話、状態依存性、標準化、情報不足など、7種類の約2000のシナリオが含まれています。モデルの3つの指標に焦点を当てています:全体的なパフォーマンス、堅牢性、効率性です。
テストプロセスには、テストシナリオの準備、インタラクティブな実行、評価の3つの段階があります。評価では、事前に定義された「マイルストーン」と「地雷原」を使用してモデルのパフォーマンスを測定します。
テスト結果によると、クローズドソースモデルはオープンソースモデルよりもツール呼び出しにおいて一般的に優れたパフォーマンスを示しています。GPT-4が最高スコアの73.0を獲得しました。オープンソースモデルの最高スコアは31.4にとどまりました。
さらなる分析により、オープンソースモデルはツールを呼び出すべき時期の識別において劣っていることが明らかになりました。大規模モデルは単一/複数ツールの呼び出しと単一ターンのユーザーリクエストで優れたパフォーマンスを示しましたが、複数ターンの対話や状態依存タスクではその優位性が低下しました。標準化はすべてのモデルにとって大きな課題となっています。
全体として、大規模モデルはツールの使用において、現実世界の複雑なインタラクションシナリオに対処する際にまだ多くの課題に直面しています。
ToolSandboxチームのメンバーは、アップル社の機械学習、データサイエンス、基盤的大規模モデルなど複数のチームから集まっています。筆頭著者は中国人機械学習エンジニアのJiarui Luで、清華大学で学部を卒業後、カーネギーメロン大学で機械学習の修士号を取得し、2020年にアップル社に加わりました。