*"Das Projekt mit dem Codenamen "Erdbeere" hat in letzter Zeit viel Aufmerksamkeit erregt. Ein Account namens "Erdbeer-Bruder" hat ständig damit zusammenhängende Informationen verbreitet, was Erwartungen und Enttäuschungen hervorgerufen hat.
Kürzlich behauptete der Gründer des KI-Agenten-Startups MultiOn, dass sie einen neuen intelligenten Agenten namens Agent Q veröffentlicht haben, der den "Erdbeer-Bruder"-Account steuert, und luden Nutzer ein, ihn online zu testen. Diese Marketingaktion verwirrte viele Menschen, da viele auf große Neuigkeiten von OpenAI gewartet hatten.
MultiOn behauptet, Agent Q sei ein bahnbrechender KI-Agent, der Technologien wie Monte-Carlo-Baumsuche (MCTS) und Selbstkritik kombiniert. Angeblich ist seine Leistung 3,4-mal höher als die Zero-Shot-Leistung der LLama 3-Baseline und erreicht eine Erfolgsrate von 95,4% bei der Bewertung von Aufgaben in realen Szenarien.
Agent Q kann Aufgaben wie Tischreservierungen in Restaurants und Flugbuchungen ausführen. Internetnutzer kauften dies jedoch nicht ab und waren mehr daran interessiert, ob MultiOn den "Erdbeer-Bruder"-Account für Hype benutzt hat.
Das zugehörige Papier zu Agent Q wurde veröffentlicht und die Hauptkomponenten umfassen:
- Verwendung von MCTS für geführte Suche
- KI-Selbstkritik
- Direkte Präferenzoptimierung (DPO)
Die Forscher untersuchten, wie MCTS dem Agenten zusätzliche Suchfähigkeiten verleihen kann, indem sie die Ausführung von Web-Agenten als Web-Baumsuche formulierten.
Die experimentellen Ergebnisse zeigen, dass nach Anwendung von MCTS die Erfolgsrate des Basismodells von 28,6% auf 48,4% stieg. Nach weiterer Feinabstimmung erreichte die Leistung von Agent Q 50,5%, was leicht über der durchschnittlichen menschlichen Leistung liegt.
Obwohl die technischen Details Aufmerksamkeit erregen, hat MultiOns Marketingansatz Kontroversen ausgelöst, wobei einige Internetnutzer sie als "schamlose Betrüger" bezeichneten."