苹果团队发布了一套名为ToolSandbox的大模型工具调用能力Benchmark。这套测试基准采用了场景化测评方法,可以更好体现模型在真实环境中的水平。它引入了对话交互、状态依赖等传统标准中没有关注到的重要场景。
ToolSandbox弥补了现有测试标准缺乏场景化评估的不足,缩小了测试条件与实际应用之间的差距。在交互上,作者让GPT-4扮演用户和被测模型进行对话,从而模拟真实世界中的场景。
ToolSandbox包括了单/多工具调用、单/多轮对话、状态依赖、标准化和信息不足等七种类型的近2000个场景。它关注模型的三个指标:整体表现、鲁棒性和效率。
测试流程包括准备测试场景、交互式执行和评估三个阶段。评估使用预定义的"里程碑"和"雷区"来衡量模型的表现。
测试结果显示,闭源模型在工具调用上的表现普遍好于开源模型。GPT-4得分最高,为73.0。开源模型中最高分仅为31.4。
进一步分析表明,开源模型在识别何时该调用工具方面表现不佳。大模型在单/多工具调用和单轮用户请求上表现优异,但在多轮对话和状态依赖任务上优势减弱。规范化是所有模型的一大挑战。
总的来说,大模型在工具使用方面,应对现实世界的复杂交互场景时仍面临诸多挑战。
ToolSandbox团队成员来自苹果公司的机器学习、数据科学、基础大模型等多个团队。第一作者是华人机器学习工程师Jiarui Lu,本科毕业于清华大学,随后在卡内基梅隆大学取得机器学习硕士学位,2020年加入苹果公司。