識別給定解決方案步驟中的錯誤。
這可以防止模型簡單地記憶或猜測答案,並消除對考試洩題的擔憂。
使用 MR-Ben,賈的團隊評估了許多開源和閉源模型,包括 GPT4-Turbo、Claude3.5-Sonnet、GLM4 和 Qwen2-70B。
該數據集的所有代碼和數據都已開源。
熟悉的問題,全新的任務
目前評估大型語言模型的主流方法是使用標準化的人類測試 - 多項選擇和填空題。
這種方法有明確的標準,直觀的指標,並自然地產生值得討論的定量結果。
然而,作者認為這種方法並不"可靠",因為現代大型語言模型通常使用思維鏈推理來生成最終答案。
由於預訓練模型在預訓練期間已經看到了數萬億個標記,### 很難確定被評估的模型是否已經看到了相關數據並只是在"記憶"正確答案。
此外,由於評估主要檢查最終答案,### 不清楚模型是否基於適當的理解和推理選擇了正確的選項。
儘管學術界不斷升級 GSM8K 和 MMLU 等數據集,例如引入多語言版本或更難的問題,但它們仍然無法擺脫多項選擇或填空格式的限制。
此外,這些數據集現在面臨嚴重的 ### 飽和問題,大型語言模型達到了峰值性能,逐漸失去區分能力。
為了解決這個問題,賈的團隊與麻省理工學院、清華大學、劍橋大學等知名大學以及中國領先的標註公司合作,創建了 MR-Ben - 一個專注於複雜問題解決推理過程的評估數據集。
MR-Ben 基於 GSM8K、MMLU、LogiQA 和 MHPP 等重要的大型模型預訓練數據集中的問題。它應用"評分式"範式轉變來創建一個更具挑戰性、更具區分度,並能更好地反映真實推理能力的新數據集。
MR-Ben 不是尋找新問題或修改現有問題來測試模型的穩健性,而是直接將模型從"考生"轉變為"評分者",讓它們評估現有的解決方案過程。這通過讓它們扮演教師的角色來測試它們對知識點的掌握!
具體來說,賈的團隊將 GSM8K、MMLU、LogiQA 和 MHPP 等主流評估數據集組織成數學/物理/化學/生物、編碼、邏輯和醫學等類別,並設置不同的難度級別。
對於每個類別和收集的問題,團隊仔細收集了相應的逐步解決方案過程。這些然後由具有碩士和博士學位的訓練有素的專業人員進行標註。
在標註過程中,解決方案過程是否正確、錯誤發生在哪裡以及錯誤原因都被仔細識別。將模型的評分結果與人類專家的評分進行比較,可以揭示模型對知識點的掌握程度。
從評估的角度來看,MR-Ben 提出的方法要求模型仔細分析解決方案過程中每一步的前提、假設和邏輯,並模擬推理過程以確定當前步驟是否導致正確答案。
這種"評分"式的評估遠比簡單回答問題更具挑戰性,但它有效避免了由於記憶而導致的分數膨脹。只會記憶答案的學生很難成為稱職的評分者。
GPT4-Turbo 表現最佳
賈的團隊評估了幾個知名的大型語言模型,其中一些模型測試了多個版本。
在閉源模型中,GPT4-Turbo 表現最佳(儘管在"評分"時未能檢測到計算錯誤),在演示(k=1)和無演示(k=0)設置下,大多數科目都領先於其他模型。
智譜 AI 的 GLM 模型在排行榜上排名第二,超過了 Claude 最新的 3.5-Sonnet 版本。
然而,模型之間存在顯著差異。即使是表現最強的 GPT4-Turbo,在 MR-Ben 數據集上的得分也不到 50 分,表明其性能仍遠未飽和。
此外,一些高性能的開源模型已經趕上了某些商業模型。
MR-Ben 團隊在工作中還發現了一些有趣的現象:
-
在低資源場景下,小型模型表現出顯著優勢。Phi-3-mini 在 MR-Ben 評估中在小型模型中脫穎而出,甚至超過或匹配了具有數千億參數的模型,展示了微調數據的重要性。
-
MR-Ben 場景涉及複雜的邏輯解析和逐步推理。在少樣本模式下,過長的上下文實際上會讓模型感到困惑,導致性能下降。
-
MR-Ben 評估了許多生成-反思-重新生成的消融實驗,以檢查提示策略之間的差異。這對低性能模型沒有影響,對 GPT4-Turbo 等高性能模型影響很小。對於中等水平的模型,它略微提高了性能,因為它們有時會糾正錯誤,但也會引入新的錯誤。
-
當將 MR-Ben 評估科目大致分為基於知識、基於邏輯、基於計算和基於算法的類別時,不同的模型在各種推理類型中表現出不同的優勢和劣勢。
賈的團隊已在 GitHub 上上傳了一鍵評估方法。測試一次消耗約 1200 萬個標記。開發者可以評估自己的模型並提交結果,MR-Ben 團隊將及時在排行榜上更新。