蘋果團隊發布了一套名為ToolSandbox的大模型工具調用能力Benchmark。這套測試基準採用了場景化測評方法,可以更好體現模型在真實環境中的水平。它引入了對話互動、狀態依賴等傳統標準中沒有關注到的重要場景。
ToolSandbox彌補了現有測試標準缺乏場景化評估的不足,縮小了測試條件與實際應用之間的差距。在互動上,作者讓GPT-4扮演用戶和被測模型進行對話,從而模擬真實世界中的場景。
ToolSandbox包括了單/多工具調用、單/多輪對話、狀態依賴、標準化和資訊不足等七種類型的近2000個場景。它關注模型的三個指標:整體表現、魯棒性和效率。
測試流程包括準備測試場景、互動式執行和評估三個階段。評估使用預定義的「里程碑」和「雷區」來衡量模型的表現。
測試結果顯示,閉源模型在工具調用上的表現普遍好於開源模型。GPT-4得分最高,為73.0。開源模型中最高分僅為31.4。
進一步分析表明,開源模型在識別何時該調用工具方面表現不佳。大模型在單/多工具調用和單輪用戶請求上表現優異,但在多輪對話和狀態依賴任務上優勢減弱。規範化是所有模型的一大挑戰。
總的來說,大模型在工具使用方面,應對現實世界的複雜互動場景時仍面臨諸多挑戰。
ToolSandbox團隊成員來自蘋果公司的機器學習、數據科學、基礎大模型等多個團隊。第一作者是華人機器學習工程師Jiarui Lu,本科畢業於清華大學,隨後在卡內基梅隆大學取得機器學習碩士學位,2020年加入蘋果公司。