A equipe da Apple lançou um conjunto de benchmarks para avaliação da capacidade de chamada de ferramentas de grandes modelos de linguagem chamado ToolSandbox. Este conjunto de testes adota um método de avaliação baseado em cenários, que pode refletir melhor o desempenho do modelo em ambientes reais. Ele introduz cenários importantes como interação de diálogo e dependência de estado, que não foram abordados em padrões tradicionais.
ToolSandbox compensa a falta de avaliação baseada em cenários nos padrões de teste existentes, reduzindo a lacuna entre as condições de teste e as aplicações reais. Na interação, os autores fizeram o GPT-4 desempenhar o papel de usuário e modelo testado para simular cenários do mundo real.
ToolSandbox inclui quase 2000 cenários em sete tipos, incluindo chamadas de ferramentas únicas/múltiplas, diálogos de turno único/múltiplo, dependência de estado, normalização e informações insuficientes. Ele se concentra em três indicadores do modelo: desempenho geral, robustez e eficiência.
O processo de teste inclui três fases: preparação de cenários de teste, execução interativa e avaliação. A avaliação usa "marcos" e "campos minados" predefinidos para medir o desempenho do modelo.
Os resultados dos testes mostram que os modelos de código fechado geralmente têm melhor desempenho em chamadas de ferramentas do que os modelos de código aberto. O GPT-4 obteve a pontuação mais alta, com 73,0. A pontuação mais alta entre os modelos de código aberto foi de apenas 31,4.
Análises adicionais indicam que os modelos de código aberto têm um desempenho ruim na identificação de quando chamar ferramentas. Os grandes modelos têm excelente desempenho em chamadas de ferramentas únicas/múltiplas e solicitações de usuário de turno único, mas sua vantagem diminui em tarefas de diálogo de múltiplos turnos e dependência de estado. A normalização é um grande desafio para todos os modelos.
Em geral, os grandes modelos ainda enfrentam muitos desafios ao lidar com cenários complexos de interação do mundo real no uso de ferramentas.
Os membros da equipe ToolSandbox vêm de várias equipes da Apple, incluindo aprendizado de máquina, ciência de dados e modelos fundamentais. O primeiro autor é Jiarui Lu, um engenheiro chinês de aprendizado de máquina que se formou na Universidade Tsinghua, obteve um mestrado em aprendizado de máquina na Universidade Carnegie Mellon e ingressou na Apple em 2020.