OpenAI « fraise » : le lanceur d'alerte soupçonné d'être une IA, la startup AgentQ de Stanford suscite la controverse

*"Évolué en agent d'intelligence artificielle Agent Q.

*"Le projet codé "Fraise" a récemment attiré une large attention. Un compte nommé "Frère Fraise" a constamment promu des informations connexes, suscitant attentes et déceptions.

Récemment, le fondateur de MultiOn, une startup d'agents IA, a affirmé qu'ils avaient lancé un nouvel agent, Agent Q, qui contrôlait le compte "Frère Fraise", invitant les utilisateurs à l'essayer en ligne. Cette opération marketing a dérouté beaucoup de gens, car nombreux attendaient une annonce majeure d'OpenAI.

MultiOn prétend qu'Agent Q est un agent IA révolutionnaire, combinant des technologies comme la recherche arborescente Monte Carlo (MCTS) et l'auto-critique. Il serait 3,4 fois plus performant que la base LLama 3 en zero-shot, avec un taux de réussite de 95,4% dans l'évaluation des tâches en situation réelle.

Agent Q peut effectuer des tâches comme réserver une table au restaurant ou un vol. Cependant, les internautes ne sont pas convaincus, s'inquiétant plutôt de savoir si MultiOn utilise le compte "Frère Fraise" pour faire du buzz.

L'article sur Agent Q a été publié, ses principaux composants incluent :

  1. Recherche guidée utilisant MCTS
  2. Auto-critique de l'IA
  3. Optimisation directe des préférences (DPO)

Les chercheurs ont exploré comment donner aux agents des capacités de recherche supplémentaires via MCTS, formulant l'exécution d'agents web comme une recherche arborescente web.

Les résultats expérimentaux montrent qu'après application de MCTS, le taux de réussite du modèle de base est passé de 28,6% à 48,4%. Après un affinage supplémentaire, les performances d'Agent Q ont atteint 50,5%, légèrement supérieures à la performance humaine moyenne.

Bien que les détails techniques soient intrigants, les méthodes marketing de MultiOn ont suscité la controverse, certains internautes les qualifiant d'"escrocs éhontés"."