OpenAI "morango" informante suspeito de ser IA: startup AgentQ de Stanford gera controvérsia

*"O projeto com o codinome "Morango" tem recebido ampla atenção recentemente. Uma conta chamada "Irmão Morango" tem constantemente promovido informações relacionadas, gerando expectativas e decepções.

Recentemente, o fundador da startup de agentes de IA MultiOn afirmou que eles lançaram um novo agente chamado Agent Q, que controla a conta "Irmão Morango", convidando os usuários a experimentá-lo online. Esta operação de marketing confundiu muitas pessoas, pois muitos estavam esperando por grandes notícias da OpenAI.

A MultiOn afirma que o Agent Q é um agente de IA revolucionário, combinando técnicas como Busca em Árvore Monte Carlo (MCTS) e autocrítica. Supostamente, seu desempenho é 3,4 vezes superior ao desempenho zero-shot da linha de base LLama 3, com uma taxa de sucesso de 95,4% em avaliações de tarefas em cenários reais.

O Agent Q pode executar tarefas como reservar mesas em restaurantes e voos. No entanto, os internautas não estão convencidos e estão mais preocupados se a MultiOn está usando a conta "Irmão Morango" para criar hype.

O artigo relacionado ao Agent Q foi publicado, com os principais componentes incluindo:

Busca guiada usando MCTS
Autocrítica da IA
Otimização Direta de Preferência (DPO)

Os pesquisadores exploraram como dotar o agente de capacidades de busca adicionais através do MCTS, formulando a execução do agente web como uma busca em árvore web.

Os resultados experimentais mostram que, após a aplicação do MCTS, a taxa de sucesso do modelo base aumentou de 28,6% para 48,4%. Após um ajuste fino adicional, o desempenho do Agent Q atingiu 50,5%, ligeiramente superior ao desempenho médio humano.

Embora os detalhes técnicos sejam intrigantes, as táticas de marketing da MultiOn geraram controvérsia, com alguns internautas chamando-os de "trapaceiros descarados".*

OpenAI "morango" informante suspeito de ser IA: startup AgentQ de Stanford gera controvérsia

*"Evoluiu para o agente de inteligência artificial Agent Q.