- projeto.
O Agent Q é descrito como uma estrutura de agente auto-supervisionada capaz de raciocinar e pesquisar. Ele pode se envolver em auto-jogo e aprendizado por reforço através de tarefas reais na internet, permitindo autocorreção e melhoria autônoma.
O CEO da MultiOn, Div Garg, frequentemente usa um emoji de morango ao mencionar o Agent Q no Twitter, alimentando especulações sobre conexões com o projeto Q* da OpenAI.
O Agent Q tem sua própria conta no Twitter que publica conteúdo incomum e semelhante ao humano. A imagem de fundo e as informações do perfil da conta fazem numerosas referências a morangos, chegando a usar uma foto de morangos do jardim de Sam Altman.
Curiosamente, a conta é seguida por vários líderes e influenciadores de tecnologia, incluindo o CEO da Y-Combinator Garry Tan, o CEO da Quora Adam D'Angelo, o colunista do New York Times Kevin Roose, o professor de IA de Wharton Ethan Mollick e vários funcionários da OpenAI. Sam Altman também interagiu recentemente com a conta.
De acordo com Div Garg, o Agent Q tem capacidades de planejamento, raciocínio e autorreparo. Eles afirmam ter melhorado o desempenho zero-shot do Llama 3 em 340% com apenas um dia de treinamento, alcançando uma taxa de sucesso de 95,4% em tarefas de reserva do mundo real.
O vídeo de demonstração oficial mostra o Agent Q realizando tarefas como reservar restaurantes, reuniões e voos, envolvendo planejamento de múltiplas etapas, raciocínio, tomada de decisões e interação com vários aplicativos.
Embora a MultiOn tenha publicado um artigo de pesquisa, o Agent Q ainda não está disponível para testes públicos. Os usuários podem se juntar a uma lista de espera para se candidatar ao acesso beta.
O Agent Q combina Busca em Árvore Monte Carlo (MCTS) guiada, autorreflexão de IA, ajuste fino iterativo e Otimização de Preferência Direta (DPO) para melhorar a generalização em tarefas de raciocínio de múltiplas etapas. Os componentes principais incluem:
- Busca guiada baseada em MCTS para gerar autonomamente dados diversos
- Autocrítica de IA para feedback em nível de etapa
- DPO para treinamento off-policy em conjuntos de dados agregados
Experimentos de avaliação mostram melhorias significativas sobre métodos de linha de base em tarefas simuladas e do mundo real. Na tarefa de reserva do Open Table, o Agent Q melhorou a taxa de sucesso zero-shot do LLaMa-3 de 18,6% para 95,4%.