- 專案
Agent Q 被描述為一個能夠推理和搜索的自監督代理框架。它可以通過在互聯網上進行真實任務來進行自我對弈和強化學習,從而實現自我糾正和自主改進。
MultiOn 的 CEO Div Garg 在 Twitter 上提到 Agent Q 時經常使用草莓表情符號,引發了與 OpenAI 的 Q* 專案有關聯的猜測。
Agent Q 有自己的 Twitter 帳戶,發布不尋常且類似人類的內容。該帳戶的背景圖像和個人資料信息多次提到草莓,甚至使用了來自 Sam Altman 花園的草莓照片。
有趣的是,該帳戶被多位科技領袖和影響者關注,包括 Y-Combinator CEO Garry Tan、Quora CEO Adam D'Angelo、《紐約時報》專欄作家 Kevin Roose、沃頓商學院 AI 教授 Ethan Mollick,以及多名 OpenAI 員工。Sam Altman 最近也與該帳戶有互動。
根據 Div Garg 的說法,Agent Q 具有規劃、推理和自我修復能力。他們聲稱僅用一天的訓練就將 Llama 3 的零樣本性能提高了 340%,在現實世界的預訂任務中達到了 95.4% 的成功率。
官方演示視頻顯示 Agent Q 執行諸如預訂餐廳、會議和航班等任務,涉及多步驟規劃、推理、決策和與各種應用程序的交互。
雖然 MultiOn 已發布研究論文,但 Agent Q 尚未開放公眾測試。用戶可以加入等候名單申請 beta 測試。
Agent Q 結合了引導式蒙特卡洛樹搜索(MCTS)、AI 自我反思、迭代微調和直接偏好優化(DPO),以改善多步驟推理任務中的泛化能力。主要組件包括:
- 基於 MCTS 的引導搜索,自主生成多樣化數據
- AI 自我批評,提供步驟級反饋
- DPO 用於對聚合數據集進行離線策略訓練
評估實驗顯示,在模擬和現實世界任務上,相比基線方法有顯著改進。在 Open Table 預訂任務中,Agent Q 將 LLaMa-3 的零樣本成功率從 18.6% 提高到 95.4%。