Новый прорыв Apple в области ИИ: GPT-4o моделирует пользовательское тестирование способностей крупных моделей вызывать инструменты

Команда Apple выпустила набор тестов под названием ToolSandbox для оценки способностей крупных языковых моделей использовать инструменты. Этот набор тестов использует сценарный подход к оценке, что позволяет лучше отразить уровень модели в реальных условиях. Он вводит важные сценарии, такие как диалоговое взаимодействие и зависимость от состояния, которые не учитывались в традиционных стандартах.

ToolSandbox восполняет недостаток сценарной оценки в существующих тестовых стандартах, сокращая разрыв между условиями тестирования и реальным применением. В плане взаимодействия авторы заставили GPT-4 играть роль пользователя и тестируемой модели для имитации реальных сценариев.

ToolSandbox включает около 2000 сценариев семи типов, включая одиночный/множественный вызов инструментов, одно-/многораундовый диалог, зависимость от состояния, нормализацию и недостаточность информации. Он фокусируется на трех показателях модели: общей производительности, устойчивости и эффективности.

Процесс тестирования включает три этапа: подготовку тестовых сценариев, интерактивное выполнение и оценку. Оценка использует предопределенные "вехи" и "минные поля" для измерения производительности модели.

Результаты тестов показывают, что закрытые модели в целом превосходят открытые модели в вызове инструментов. GPT-4 получил наивысший балл - 73.0. Среди открытых моделей наивысший балл составил всего 31.4.

Дальнейший анализ показывает, что открытые модели плохо справляются с определением, когда следует вызывать инструмент. Крупные модели отлично справляются с одиночным/множественным вызовом инструментов и однораундовыми запросами пользователей, но их преимущество уменьшается в многораундовых диалогах и задачах, зависящих от состояния. Нормализация является большой проблемой для всех моделей.

В целом, крупные модели все еще сталкиваются со многими проблемами при использовании инструментов в сложных сценариях взаимодействия реального мира.

Команда ToolSandbox состоит из членов различных команд Apple, включая машинное обучение, науку о данных и базовые крупные модели. Первый автор - китайский инженер по машинному обучению Цзяжуй Лу, окончивший бакалавриат в Университете Цинхуа, затем получивший степень магистра по машинному обучению в Университете Карнеги-Меллона и присоединившийся к Apple в 2020 году.

Новый прорыв Apple в области ИИ: GPT-4o моделирует пользовательское тестирование способностей крупных моделей вызывать инструменты

Крупные языковые модели все еще имеют значительный потенциал для улучшения в области использования инструментов.