- proyecto.
Agent Q se describe como un marco de agente autosupervisado capaz de razonar y buscar. Puede participar en juego autónomo y aprendizaje por refuerzo a través de tareas reales en internet, permitiendo la autocorrección y la mejora autónoma.
El CEO de MultiOn, Div Garg, frecuentemente usa un emoji de fresa cuando menciona a Agent Q en Twitter, alimentando especulaciones sobre conexiones con el proyecto Q* de OpenAI.
Agent Q tiene su propia cuenta de Twitter que publica contenido inusual y similar al humano. La imagen de fondo y la información del perfil de la cuenta hacen numerosas referencias a fresas, incluso usando una foto de fresas del jardín de Sam Altman.
Curiosamente, la cuenta es seguida por varios líderes tecnológicos e influencers, incluyendo al CEO de Y-Combinator Garry Tan, el CEO de Quora Adam D'Angelo, el columnista del New York Times Kevin Roose, el profesor de IA de Wharton Ethan Mollick, y múltiples empleados de OpenAI. Sam Altman también ha interactuado recientemente con la cuenta.
Según Div Garg, Agent Q tiene capacidades de planificación, razonamiento y autoreparación. Afirman haber mejorado el rendimiento de cero disparos de Llama 3 en un 340% con solo un día de entrenamiento, logrando una tasa de éxito del 95.4% en tareas de reserva del mundo real.
El video de demostración oficial muestra a Agent Q realizando tareas como reservar restaurantes, reuniones y vuelos, involucrando planificación de múltiples pasos, razonamiento, toma de decisiones e interacción con varias aplicaciones.
Aunque MultiOn ha publicado un artículo de investigación, Agent Q aún no está disponible para pruebas públicas. Los usuarios pueden unirse a una lista de espera para solicitar acceso beta.
Agent Q combina búsqueda de árbol de Monte Carlo guiada (MCTS), autorreflexión de IA, ajuste fino iterativo y Optimización de Preferencia Directa (DPO) para mejorar la generalización en tareas de razonamiento de múltiples pasos. Los componentes clave incluyen:
- Búsqueda guiada basada en MCTS para generar autónomamente datos diversos
- Autocrítica de IA para retroalimentación a nivel de paso
- DPO para entrenamiento fuera de política en conjuntos de datos agregados
Los experimentos de evaluación muestran mejoras significativas sobre los métodos de referencia tanto en tareas simuladas como del mundo real. En la tarea de reserva de Open Table, Agent Q mejoró la tasa de éxito de cero disparos de LLaMa-3 del 18.6% al 95.4%.