Команда Apple выпустила набор тестов под названием ToolSandbox для оценки способностей крупных языковых моделей использовать инструменты. Этот набор тестов использует сценарный подход к оценке, что позволяет лучше отразить уровень модели в реальных условиях. Он вводит важные сценарии, такие как диалоговое взаимодействие и зависимость от состояния, которые не учитывались в традиционных стандартах.
ToolSandbox восполняет недостаток сценарной оценки в существующих тестовых стандартах, сокращая разрыв между условиями тестирования и реальным применением. В плане взаимодействия авторы заставили GPT-4 играть роль пользователя и тестируемой модели для имитации реальных сценариев.
ToolSandbox включает около 2000 сценариев семи типов, включая одиночный/множественный вызов инструментов, одно-/многораундовый диалог, зависимость от состояния, нормализацию и недостаточность информации. Он фокусируется на трех показателях модели: общей производительности, устойчивости и эффективности.
Процесс тестирования включает три этапа: подготовку тестовых сценариев, интерактивное выполнение и оценку. Оценка использует предопределенные "вехи" и "минные поля" для измерения производительности модели.
Результаты тестов показывают, что закрытые модели в целом превосходят открытые модели в вызове инструментов. GPT-4 получил наивысший балл - 73.0. Среди открытых моделей наивысший балл составил всего 31.4.
Дальнейший анализ показывает, что открытые модели плохо справляются с определением, когда следует вызывать инструмент. Крупные модели отлично справляются с одиночным/множественным вызовом инструментов и однораундовыми запросами пользователей, но их преимущество уменьшается в многораундовых диалогах и задачах, зависящих от состояния. Нормализация является большой проблемой для всех моделей.
В целом, крупные модели все еще сталкиваются со многими проблемами при использовании инструментов в сложных сценариях взаимодействия реального мира.
Команда ToolSandbox состоит из членов различных команд Apple, включая машинное обучение, науку о данных и базовые крупные модели. Первый автор - китайский инженер по машинному обучению Цзяжуй Лу, окончивший бакалавриат в Университете Цинхуа, затем получивший степень магистра по машинному обучению в Университете Карнеги-Меллона и присоединившийся к Apple в 2020 году.