- projet.
Agent Q est décrit comme un cadre d'agent auto-supervisé capable de raisonner et de rechercher. Il peut s'engager dans l'auto-jeu et l'apprentissage par renforcement à travers des tâches réelles sur Internet, permettant l'auto-correction et l'amélioration autonome.
Le PDG de MultiOn, Div Garg, utilise fréquemment un emoji fraise lorsqu'il mentionne Agent Q sur Twitter, alimentant les spéculations sur les liens avec le projet Q* d'OpenAI.
Agent Q a son propre compte Twitter qui publie du contenu inhabituel et semblable à celui d'un humain. L'image de fond et les informations du profil du compte font de nombreuses références aux fraises, utilisant même une photo de fraises du jardin de Sam Altman.
Fait intéressant, le compte est suivi par plusieurs leaders et influenceurs technologiques, dont le PDG de Y-Combinator Garry Tan, le PDG de Quora Adam D'Angelo, le chroniqueur du New York Times Kevin Roose, le professeur d'IA de Wharton Ethan Mollick, et plusieurs employés d'OpenAI. Sam Altman a également récemment interagi avec le compte.
Selon Div Garg, Agent Q possède des capacités de planification, de raisonnement et d'auto-réparation. Ils affirment avoir amélioré les performances zero-shot de Llama 3 de 340% avec seulement un jour d'entraînement, atteignant un taux de réussite de 95,4% sur des tâches de réservation réelles.
La vidéo de démonstration officielle montre Agent Q effectuant des tâches comme la réservation de restaurants, de réunions et de vols, impliquant une planification en plusieurs étapes, du raisonnement, de la prise de décision et une interaction avec diverses applications.
Bien que MultiOn ait publié un article de recherche, Agent Q n'est pas encore disponible pour des tests publics. Les utilisateurs peuvent rejoindre une liste d'attente pour demander un accès bêta.
Agent Q combine la recherche arborescente de Monte Carlo guidée (MCTS), l'auto-réflexion de l'IA, le réglage fin itératif et l'optimisation directe des préférences (DPO) pour améliorer la généralisation dans les tâches de raisonnement en plusieurs étapes. Les composants clés comprennent :
- La recherche guidée basée sur MCTS pour générer de manière autonome des données diverses
- L'auto-critique de l'IA pour un retour d'information au niveau des étapes
- DPO pour l'entraînement hors politique sur des ensembles de données agrégés
Les expériences d'évaluation montrent des améliorations significatives par rapport aux méthodes de référence sur des tâches simulées et réelles. Sur la tâche de réservation Open Table, Agent Q a amélioré le taux de réussite zero-shot de LLaMa-3 de 18,6% à 95,4%.