El equipo de Apple ha lanzado un conjunto de pruebas de referencia llamado ToolSandbox para evaluar la capacidad de los grandes modelos de lenguaje en el uso de herramientas. Este conjunto de pruebas utiliza un método de evaluación basado en escenarios para reflejar mejor el rendimiento de los modelos en entornos reales. Introduce escenarios importantes como la interacción conversacional y la dependencia de estados, que no se habían considerado en los estándares tradicionales.
ToolSandbox compensa la falta de evaluación basada en escenarios en los estándares de prueba existentes, reduciendo la brecha entre las condiciones de prueba y las aplicaciones reales. En cuanto a la interacción, los autores hicieron que GPT-4 interpretara el papel de usuario y modelo evaluado para simular escenarios del mundo real.
ToolSandbox incluye cerca de 2000 escenarios en siete categorías: llamadas a herramientas únicas/múltiples, diálogos de una/múltiples rondas, dependencia de estados, normalización e información insuficiente. Se centra en tres indicadores del modelo: rendimiento general, robustez y eficiencia.
El proceso de prueba incluye tres fases: preparación de escenarios de prueba, ejecución interactiva y evaluación. La evaluación utiliza "hitos" y "campos minados" predefinidos para medir el rendimiento del modelo.
Los resultados de las pruebas muestran que los modelos de código cerrado generalmente superan a los modelos de código abierto en el uso de herramientas. GPT-4 obtuvo la puntuación más alta con 73.0. La puntuación más alta entre los modelos de código abierto fue solo de 31.4.
Un análisis más profundo indica que los modelos de código abierto tienen un rendimiento deficiente en identificar cuándo se deben llamar a las herramientas. Los grandes modelos se desempeñan bien en llamadas a herramientas únicas/múltiples y solicitudes de usuario de una sola ronda, pero su ventaja disminuye en tareas de diálogo de múltiples rondas y dependencia de estados. La normalización es un gran desafío para todos los modelos.
En general, los grandes modelos aún enfrentan muchos desafíos al manejar escenarios de interacción complejos del mundo real en el uso de herramientas.
Los miembros del equipo de ToolSandbox provienen de varios equipos de Apple, incluyendo aprendizaje automático, ciencia de datos y modelos fundamentales. El primer autor es Jiarui Lu, un ingeniero chino de aprendizaje automático que se graduó de la Universidad de Tsinghua, obtuvo una maestría en aprendizaje automático en la Universidad Carnegie Mellon y se unió a Apple en 2020.