贾佳亚团队推出新评估标准：专注大语言模型纠错能力，GPT-4表现不及预期

这可以防止模型简单地记忆或猜测答案,并消除对考试泄露的担忧。

使用MR-Ben,贾的团队评估了许多开源和闭源模型,包括GPT4-Turbo、Claude3.5-Sonnet、GLM4和Qwen2-70B。

该数据集的所有代码和数据都已开源。

熟悉的问题,全新的任务

目前大型语言模型的主流评估方法使用标准化的人类测试 - 多项选择和填空题。

这种方法有明确的标准,直观的指标,并自然地产生值得讨论的定量结果。

然而,作者认为这种方法并不"可靠",因为现代大型语言模型通常使用思维链推理来生成最终答案。

由于预训练模型在预训练过程中已经见过数万亿个标记,### 很难确定被评估的模型是否已经见过相关数据,只是在"记忆"正确答案。

此外,由于评估主要检查最终答案,### 不清楚模型是否基于正确的理解和推理选择了正确的选项。

虽然学术界不断升级GSM8K和MMLU等数据集,如引入多语言版本或更难的问题,但它们仍然无法摆脱多项选择或填空格式的局限性。

此外,这些数据集现在面临严重的### 饱和问题,大型语言模型达到了峰值性能,逐渐失去了区分能力。

为了解决这个问题,贾的团队与麻省理工学院、清华大学、剑桥大学等知名大学以及中国领先的标注公司合作,创建了MR-Ben - 一个专注于复杂问题解决推理过程的评估数据集。

MR-Ben基于GSM8K、MMLU、LogiQA和MHPP等重要的大型模型预训练数据集中的问题。它应用"评分式"范式转变,创建了一个更具挑战性、更具区分度,并能更好地反映真实推理能力的新数据集。

MR-Ben不是寻找新问题或修改现有问题来测试模型的鲁棒性,而是直接将模型从"考生"转变为"评分员",让它们评估现有的解决方案过程。这通过让它们扮演教师的角色来测试它们对知识点的掌握!

具体来说,贾的团队将GSM8K、MMLU、LogiQA和MHPP等主流评估数据集分类为数学/物理/化学/生物、编码、逻辑和医学等类别,并设置不同的难度级别。

对于每个类别和收集的问题,团队仔细收集了相应的逐步解决方案过程。这些然后由具有硕士和博士学位的训练有素的专业人员进行注释。

在注释过程中,仔细识别解决方案过程是否正确、错误发生在哪里以及错误的原因。将模型的评分结果与人类专家的评分进行比较,揭示了模型对知识点的掌握程度。

从评估的角度来看,MR-Ben提出的方法要求模型仔细分析解决方案过程中每一步的前提、假设和逻辑,并模拟推理过程以确定当前步骤是否导致正确答案。

这种"评分"式的评估比简单回答问题要困难得多,但它有效地避免了由于记忆而导致的分数膨胀。只会记忆答案的学生很难成为称职的评分员。

贾的团队评估了几个知名的大型语言模型,其中一些模型测试了多个版本。

在闭源模型中,GPT4-Turbo表现最佳(尽管在"评分"时未能检测到计算错误),在演示(k=1)和无演示(k=0)设置下,大多数科目都领先于其他模型。

智谱AI的GLM模型在排行榜上排名第二,超过了Claude最新的3.5-Sonnet版本。

然而,模型之间存在显著差异。即使是表现最强的GPT4-Turbo,在MR-Ben数据集上的得分也不到50分,表明其性能仍远未饱和。

此外,一些高性能的开源模型已经赶上了某些商业模型。

MR-Ben团队在工作中还发现了一些有趣的现象:

在低资源场景下,小型模型表现出显著的优势。Phi-3-mini在MR-Ben评估中在小型模型中脱颖而出,甚至超过或匹配了具有数千亿参数的模型,展示了微调数据的重要性。
MR-Ben场景涉及复杂的逻辑解析和逐步推理。在少样本模式下,过长的上下文实际上会混淆模型,导致性能下降。
MR-Ben评估了许多生成-反思-重新生成的消融实验,以检查提示策略之间的差异。这对表现不佳的模型没有影响,对GPT4-Turbo等高性能模型影响很小。对于中等水平的模型,它略微提高了性能,因为它们有时会纠正错误,但也会引入新的错误。
当将MR-Ben评估科目大致划分为基于知识、基于逻辑、基于计算和基于算法的类别时,不同的模型在各种推理类型中表现出不同的优势和劣势。

贾的团队已在GitHub上上传了一键评估方法。测试一次消耗约12M个标记。开发者可以评估自己的模型并提交结果,MR-Ben团队将及时在排行榜上更新。