- Projekt.
Agent Q wird als selbstüberwachtes Agenten-Framework beschrieben, das zu Argumentation und Suche fähig ist. Es kann sich in Selbstspiel und Verstärkungslernen durch reale Aufgaben im Internet engagieren und ermöglicht so Selbstkorrektur und autonome Verbesserung.
Der CEO von MultiOn, Div Garg, verwendet häufig ein Erdbeer-Emoji, wenn er Agent Q auf Twitter erwähnt, was Spekulationen über Verbindungen zum Q*-Projekt von OpenAI anheizt.
Agent Q hat einen eigenen Twitter-Account, der ungewöhnliche und menschenähnliche Inhalte postet. Das Hintergrundbild und die Profilinformationen des Accounts enthalten zahlreiche Verweise auf Erdbeeren und verwenden sogar ein Foto von Erdbeeren aus Sam Altmans Garten.
Interessanterweise wird der Account von mehreren Tech-Führungskräften und Influencern verfolgt, darunter Y-Combinator CEO Garry Tan, Quora CEO Adam D'Angelo, New York Times Kolumnist Kevin Roose, Wharton AI Professor Ethan Mollick und mehrere OpenAI-Mitarbeiter. Sam Altman hat kürzlich auch mit dem Account interagiert.
Laut Div Garg verfügt Agent Q über Planungs-, Argumentations- und Selbstreparaturfähigkeiten. Sie behaupten, die Zero-Shot-Leistung von Llama 3 mit nur einem Tag Training um 340% verbessert zu haben und erreichen eine Erfolgsquote von 95,4% bei realen Buchungsaufgaben.
Das offizielle Demo-Video zeigt Agent Q bei der Ausführung von Aufgaben wie der Buchung von Restaurants, Meetings und Flügen, die mehrstufige Planung, Argumentation, Entscheidungsfindung und Interaktion mit verschiedenen Anwendungen beinhalten.
Obwohl MultiOn ein Forschungspapier veröffentlicht hat, ist Agent Q noch nicht für öffentliche Tests verfügbar. Benutzer können sich auf eine Warteliste setzen lassen, um sich für den Beta-Zugang zu bewerben.
Agent Q kombiniert geführte Monte Carlo Tree Search (MCTS), KI-Selbstreflexion, iterative Feinabstimmung und Direct Preference Optimization (DPO), um die Generalisierung bei mehrstufigen Argumentationsaufgaben zu verbessern. Zu den Schlüsselkomponenten gehören:
- MCTS-basierte geführte Suche zur autonomen Generierung vielfältiger Daten
- KI-Selbstkritik für Feedback auf Schrittebene
- DPO für Off-Policy-Training auf aggregierten Datensätzen
Evaluierungsexperimente zeigen signifikante Verbesserungen gegenüber Basismethoden sowohl bei simulierten als auch bei realen Aufgaben. Bei der Open Table Buchungsaufgabe verbesserte Agent Q die Zero-Shot-Erfolgsrate von LLaMa-3 von 18,6% auf 95,4%.