Llama 3效率大幅提升：Agent Q智能体问世，OpenAI新项目面临挑战

项目

Agent Q被描述为一个能够推理和搜索的自监督代理框架。它可以通过互联网上的真实任务进行自我对弈和强化学习,从而实现自我纠正和自主改进。

MultiOn的CEO Div Garg在Twitter上提到Agent Q时经常使用草莓emoji,引发了与OpenAI的Q*项目有关联的猜测。

Agent Q有自己的Twitter账号,发布不寻常且类人的内容。该账号的背景图片和个人资料信息多次提到草莓,甚至使用了Sam Altman花园里的草莓照片。

有趣的是,该账号被多位科技领袖和影响者关注,包括Y-Combinator CEO Garry Tan、Quora CEO Adam D'Angelo、纽约时报专栏作家Kevin Roose、沃顿商学院AI教授Ethan Mollick,以及多名OpenAI员工。Sam Altman最近也与该账号有互动。

据Div Garg称,Agent Q具有规划、推理和自我修复能力。他们声称仅用一天的训练就将Llama 3的零样本性能提高了340%,在现实世界的预订任务中达到了95.4%的成功率。

官方演示视频展示了Agent Q执行诸如预订餐厅、会议和航班等任务,涉及多步规划、推理、决策和与各种应用程序的交互。

虽然MultiOn已发布研究论文,但Agent Q尚未对公众开放测试。用户可以加入等候名单申请beta测试。

Agent Q结合了引导式蒙特卡洛树搜索(MCTS)、AI自我反思、迭代微调和直接偏好优化(DPO),以改善多步推理任务中的泛化能力。主要组件包括:

基于MCTS的引导搜索,自主生成多样化数据
AI自我批评,提供步骤级反馈
DPO用于对聚合数据集进行离线策略训练

评估实验显示,在模拟和现实世界任务上,相比基线方法有显著改进。在Open Table预订任务中,Agent Q将LLaMa-3的零样本成功率从18.6%提高到95.4%。

Llama 3效率大幅提升：Agent Q智能体问世，OpenAI新项目面临挑战

新兴企业MultiOn推出先进的人工智能助手Q。