- プロジェクト
Agent Qは、推論と検索が可能な自己教師あり型エージェントフレームワークとして説明されています。インターネット上の実際のタスクを通じてセルフプレイと強化学習を行い、自己修正と自律的な改善を可能にします。
MultiOnのCEOであるDiv Gargは、TwitterでAgent Qに言及する際にイチゴの絵文字を頻繁に使用しており、OpenAIのQ*プロジェクトとの関連性について憶測を呼んでいます。
Agent Qは独自のTwitterアカウントを持ち、unusual(異例)で人間らしい内容を投稿しています。アカウントの背景画像とプロフィール情報には、イチゴへの言及が多数あり、Sam Altmanの庭のイチゴの写真まで使用しています。
興味深いことに、このアカウントはY-CombinatorのCEO Garry Tan、QuoraのCEO Adam D'Angelo、ニューヨークタイムズのコラムニストKevin Roose、ウォートン校のAI教授Ethan Mollick、そして複数のOpenAI従業員など、多くのテクノロジーリーダーやインフルエンサーにフォローされています。Sam Altmanも最近このアカウントと交流しています。
Div Gargによると、Agent Qは計画、推論、自己修復の能力を持っています。わずか1日のトレーニングでLlama 3のゼロショット性能を340%向上させ、実世界の予約タスクで95.4%の成功率を達成したと主張しています。
公式デモ動画では、Agent Qがレストラン、会議、フライトの予約など、複数のステップの計画、推論、意思決定、さまざまなアプリケーションとの対話を含むタスクを実行している様子が示されています。
MultiOnは研究論文を発表していますが、Agent Qはまだ一般公開されていません。ユーザーはベータアクセスを申請するためのウェイトリストに参加できます。
Agent Qは、ガイド付きモンテカルロ木探索(MCTS)、AI自己反省、反復的な微調整、直接選好最適化(DPO)を組み合わせて、多段階推論タスクにおける汎化性能を向上させています。主要な構成要素は以下の通りです:
- 多様なデータを自律的に生成するためのMCTSベースのガイド付き探索
- ステップレベルのフィードバックのためのAI自己批評
- 集約されたデータセットに対するオフポリシートレーニングのためのDPO
評価実験では、シミュレーションと実世界のタスクの両方で、ベースライン手法に比べて大幅な改善が示されています。Open Tableの予約タスクでは、Agent QはLLaMa-3のゼロショット成功率を18.6%から95.4%に向上させました。