Das Apple-Team hat einen Benchmark-Satz namens ToolSandbox für die Werkzeugaufruffähigkeiten von großen Modellen veröffentlicht. Dieser Testsatz verwendet eine szenariobasierte Bewertungsmethode, die das Leistungsniveau der Modelle in realen Umgebungen besser widerspiegeln kann. Er führt wichtige Szenarien wie Dialoginteraktion und Zustandsabhängigkeit ein, die in herkömmlichen Standards nicht berücksichtigt wurden.
ToolSandbox schließt die Lücke der fehlenden szenariobasierten Bewertung in bestehenden Teststandards und verringert den Abstand zwischen Testbedingungen und tatsächlichen Anwendungen. In Bezug auf Interaktionen lassen die Autoren GPT-4 Benutzer und das zu testende Modell in einem Dialog spielen, um reale Szenarien zu simulieren.
ToolSandbox umfasst fast 2000 Szenarien in sieben Kategorien, darunter Einzel-/Mehrfachwerkzeugaufrufe, Einzel-/Mehrrundendialoge, Zustandsabhängigkeit, Standardisierung und unzureichende Informationen. Es konzentriert sich auf drei Indikatoren für Modelle: Gesamtleistung, Robustheit und Effizienz.
Der Testprozess umfasst drei Phasen: Vorbereitung der Testszenarien, interaktive Ausführung und Bewertung. Die Bewertung verwendet vordefinierte "Meilensteine" und "Minenfelder", um die Leistung der Modelle zu messen.
Die Testergebnisse zeigen, dass proprietäre Modelle bei Werkzeugaufrufen im Allgemeinen besser abschneiden als Open-Source-Modelle. GPT-4 erzielte mit 73,0 die höchste Punktzahl. Die höchste Punktzahl unter den Open-Source-Modellen betrug nur 31,4.
Weitere Analysen zeigen, dass Open-Source-Modelle bei der Erkennung, wann Werkzeuge aufgerufen werden sollten, schlecht abschneiden. Große Modelle zeigen hervorragende Leistungen bei Einzel-/Mehrfachwerkzeugaufrufen und einrundigen Benutzeranfragen, aber ihre Vorteile nehmen bei Mehrrundendialogen und zustandsabhängigen Aufgaben ab. Die Standardisierung ist eine große Herausforderung für alle Modelle.
Insgesamt stehen große Modelle bei der Werkzeugnutzung noch vor vielen Herausforderungen, wenn es um komplexe Interaktionsszenarien in der realen Welt geht.
Die Mitglieder des ToolSandbox-Teams kommen aus verschiedenen Abteilungen von Apple, darunter maschinelles Lernen, Datenwissenschaft und grundlegende große Modelle. Der Erstautor ist Jiarui Lu, ein chinesischer Maschinenlern-Ingenieur, der seinen Bachelor an der Tsinghua-Universität absolvierte, anschließend einen Master in maschinellem Lernen an der Carnegie Mellon University erwarb und 2020 zu Apple kam.