L'équipe d'Apple a publié un benchmark de capacités d'appel d'outils pour les grands modèles appelé ToolSandbox. Ce benchmark utilise une méthode d'évaluation basée sur des scénarios pour mieux refléter les performances des modèles dans des environnements réels. Il introduit des scénarios importants comme l'interaction conversationnelle et la dépendance d'état, qui n'étaient pas pris en compte dans les normes traditionnelles.
ToolSandbox comble les lacunes des normes de test existantes en matière d'évaluation basée sur des scénarios, réduisant ainsi l'écart entre les conditions de test et les applications réelles. Pour l'interaction, les auteurs ont fait jouer à GPT-4 le rôle d'utilisateur et de modèle testé pour simuler des scénarios du monde réel.
ToolSandbox comprend près de 2000 scénarios répartis en sept types, dont l'appel d'outils uniques/multiples, les dialogues à un/plusieurs tours, la dépendance d'état, la normalisation et le manque d'information. Il se concentre sur trois indicateurs du modèle : performance globale, robustesse et efficacité.
Le processus de test comprend trois phases : préparation des scénarios de test, exécution interactive et évaluation. L'évaluation utilise des "jalons" et des "champs de mines" prédéfinis pour mesurer les performances du modèle.
Les résultats des tests montrent que les modèles propriétaires surpassent généralement les modèles open source en matière d'appel d'outils. GPT-4 obtient le score le plus élevé avec 73,0. Le score le plus élevé parmi les modèles open source n'est que de 31,4.
Une analyse plus approfondie révèle que les modèles open source ont du mal à identifier quand appeler un outil. Les grands modèles excellent dans l'appel d'outils uniques/multiples et les requêtes utilisateur à un seul tour, mais leur avantage diminue dans les tâches de dialogue à plusieurs tours et de dépendance d'état. La normalisation est un défi majeur pour tous les modèles.
Dans l'ensemble, les grands modèles sont encore confrontés à de nombreux défis lorsqu'il s'agit d'utiliser des outils pour gérer des scénarios d'interaction complexes du monde réel.
Les membres de l'équipe ToolSandbox proviennent de plusieurs équipes d'Apple, notamment l'apprentissage automatique, la science des données et les modèles de base. Le premier auteur est Jiarui Lu, un ingénieur chinois en apprentissage automatique, diplômé de l'Université Tsinghua, qui a ensuite obtenu une maîtrise en apprentissage automatique à l'Université Carnegie Mellon et a rejoint Apple en 2020.