- 项目
Agent Q被描述为一个能够推理和搜索的自监督代理框架。它可以通过互联网上的真实任务进行自我对弈和强化学习,从而实现自我纠正和自主改进。
MultiOn的CEO Div Garg在Twitter上提到Agent Q时经常使用草莓emoji,引发了与OpenAI的Q*项目有关联的猜测。
Agent Q有自己的Twitter账号,发布不寻常且类人的内容。该账号的背景图片和个人资料信息多次提到草莓,甚至使用了Sam Altman花园里的草莓照片。
有趣的是,该账号被多位科技领袖和影响者关注,包括Y-Combinator CEO Garry Tan、Quora CEO Adam D'Angelo、纽约时报专栏作家Kevin Roose、沃顿商学院AI教授Ethan Mollick,以及多名OpenAI员工。Sam Altman最近也与该账号有互动。
据Div Garg称,Agent Q具有规划、推理和自我修复能力。他们声称仅用一天的训练就将Llama 3的零样本性能提高了340%,在现实世界的预订任务中达到了95.4%的成功率。
官方演示视频展示了Agent Q执行诸如预订餐厅、会议和航班等任务,涉及多步规划、推理、决策和与各种应用程序的交互。
虽然MultiOn已发布研究论文,但Agent Q尚未对公众开放测试。用户可以加入等候名单申请beta测试。
Agent Q结合了引导式蒙特卡洛树搜索(MCTS)、AI自我反思、迭代微调和直接偏好优化(DPO),以改善多步推理任务中的泛化能力。主要组件包括:
- 基于MCTS的引导搜索,自主生成多样化数据
- AI自我批评,提供步骤级反馈
- DPO用于对聚合数据集进行离线策略训练
评估实验显示,在模拟和现实世界任务上,相比基线方法有显著改进。在Open Table预订任务中,Agent Q将LLaMa-3的零样本成功率从18.6%提高到95.4%。