蘋果AI新突破：GPT-4o模擬用戶測試大模型工具調用能力

蘋果團隊發布了一套名為ToolSandbox的大模型工具調用能力Benchmark。這套測試基準採用了場景化測評方法，可以更好體現模型在真實環境中的水平。它引入了對話互動、狀態依賴等傳統標準中沒有關注到的重要場景。

ToolSandbox彌補了現有測試標準缺乏場景化評估的不足，縮小了測試條件與實際應用之間的差距。在互動上，作者讓GPT-4扮演用戶和被測模型進行對話，從而模擬真實世界中的場景。

ToolSandbox包括了單/多工具調用、單/多輪對話、狀態依賴、標準化和資訊不足等七種類型的近2000個場景。它關注模型的三個指標：整體表現、魯棒性和效率。

測試流程包括準備測試場景、互動式執行和評估三個階段。評估使用預定義的「里程碑」和「雷區」來衡量模型的表現。

測試結果顯示，閉源模型在工具調用上的表現普遍好於開源模型。GPT-4得分最高，為73.0。開源模型中最高分僅為31.4。

進一步分析表明，開源模型在識別何時該調用工具方面表現不佳。大模型在單/多工具調用和單輪用戶請求上表現優異，但在多輪對話和狀態依賴任務上優勢減弱。規範化是所有模型的一大挑戰。

總的來說，大模型在工具使用方面，應對現實世界的複雜互動場景時仍面臨諸多挑戰。

ToolSandbox團隊成員來自蘋果公司的機器學習、數據科學、基礎大模型等多個團隊。第一作者是華人機器學習工程師Jiarui Lu，本科畢業於清華大學，隨後在卡內基梅隆大學取得機器學習碩士學位，2020年加入蘋果公司。

大型語言模型在工具使用方面仍有顯著改進潛力。