Identification des erreurs dans les étapes de solution données.
Cela empêche les modèles de simplement mémoriser ou deviner les réponses, et élimine les inquiétudes concernant les fuites de tests.
En utilisant MR-Ben, l'équipe de Jia a évalué de nombreux modèles open source et propriétaires, notamment GPT4-Turbo, Claude3.5-Sonnet, GLM4 et Qwen2-70B.
Tout le code et les données de cet ensemble de données ont été rendus open source.
Questions familières, tâche totalement nouvelle
Les méthodes d'évaluation actuelles pour les grands modèles de langage utilisent des tests humains standardisés - des questions à choix multiples et à trous.
Cette approche a des normes claires, des métriques intuitives et génère naturellement des résultats quantitatifs dignes de discussion.
Cependant, les auteurs soutiennent que cette méthode n'est pas "fiable" étant donné que les grands modèles de langage modernes utilisent généralement un raisonnement en chaîne de pensée pour générer les réponses finales.
Avec des modèles pré-entraînés ayant vu des billions de tokens pendant le pré-entraînement, ### il est difficile de déterminer si un modèle évalué a déjà vu les données pertinentes et se contente de "mémoriser" les bonnes réponses.
De plus, comme l'évaluation vérifie principalement la réponse finale, ### on ne sait pas si le modèle a choisi la bonne option sur la base d'une compréhension et d'un raisonnement appropriés.
Bien que la communauté académique mette continuellement à jour des ensembles de données comme GSM8K et MMLU, par exemple en introduisant des versions multilingues ou des questions plus difficiles, ils ne peuvent toujours pas échapper aux limites des formats à choix multiples ou à trous.
De plus, ces ensembles de données sont maintenant confrontés à de sérieux ### problèmes de saturation, les grands modèles de langage atteignant des performances maximales et perdant progressivement leur pouvoir discriminant.
Pour résoudre ce problème, l'équipe de Jia a collaboré avec le MIT, Tsinghua, Cambridge et d'autres universités renommées, ainsi qu'avec des entreprises chinoises leaders en annotation, pour créer MR-Ben - un ensemble de données d'évaluation axé sur les processus de raisonnement complexes de résolution de problèmes.
MR-Ben est basé sur des questions provenant d'ensembles de données essentiels de pré-entraînement de grands modèles comme GSM8K, MMLU, LogiQA et MHPP. Il applique un changement de paradigme de "style notation" pour créer un nouvel ensemble de données plus difficile, plus discriminant et reflétant mieux les véritables capacités de raisonnement.
Plutôt que de trouver de nouvelles questions ou de modifier les existantes pour tester la robustesse du modèle, MR-Ben transforme directement les modèles de "candidats" en "correcteurs", en leur faisant évaluer les processus de solution existants. Cela teste leur maîtrise des points de connaissance en les faisant agir comme des enseignants !
Plus précisément, l'équipe de Jia a organisé les principaux ensembles de données d'évaluation comme GSM8K, MMLU, LogiQA et MHPP en catégories telles que mathématiques/physique/chimie/biologie, codage, logique et médecine, avec différents niveaux de difficulté.
Pour chaque catégorie et question collectée, l'équipe a soigneusement rassemblé les processus de solution étape par étape correspondants. Ceux-ci ont ensuite été annotés par des professionnels formés titulaires de masters et de doctorats.
Lors de l'annotation, le fait que le processus de solution soit correct, où se produisent les erreurs et les raisons des erreurs sont tous méticuleusement identifiés. La comparaison des résultats de notation du modèle avec la notation d'experts humains révèle la maîtrise des points de connaissance par le modèle.
Du point de vue de l'évaluation, la méthode proposée par MR-Ben exige que les modèles analysent soigneusement les prémisses, les hypothèses et la logique de chaque étape du processus de solution, et simulent le processus de raisonnement pour déterminer si l'étape actuelle mène à la bonne réponse.
Ce style d'évaluation "notation" est beaucoup plus difficile que de simplement répondre à des questions, mais il évite efficacement les scores gonflés dus à la mémorisation. Les étudiants qui ne peuvent que mémoriser les réponses auraient du mal à être des correcteurs compétents.
GPT4-Turbo obtient les meilleures performances
L'équipe de Jia a évalué plusieurs grands modèles de langage bien connus, avec plusieurs versions de certains modèles testées.
Parmi les modèles propriétaires, GPT4-Turbo a obtenu les meilleures performances (bien qu'il n'ait pas réussi à détecter les erreurs de calcul lors de la "notation"), dépassant les autres modèles dans la plupart des matières dans les paramètres avec démonstration (k=1) et sans démonstration (k=0).
Le modèle GLM de Zhipu AI s'est classé deuxième au classement, dépassant la dernière version 3.5-Sonnet de Claude.
Cependant, il existe des différences significatives entre les modèles. Même le plus performant, GPT4-Turbo, a obtenu moins de 50 points sur l'ensemble de données MR-Ben, indiquant que ses performances sont encore loin d'être saturées.
De plus, certains modèles open source très performants ont rattrapé certains modèles commerciaux.
L'équipe MR-Ben a également découvert quelques phénomènes intéressants au cours de leur travail :
-
Dans des scénarios à faibles ressources, les petits modèles ont montré des forces notables. Phi-3-mini s'est démarqué parmi les petits modèles dans l'évaluation MR-Ben, surpassant même ou égalant des modèles avec des centaines de milliards de paramètres, démontrant l'importance des données de fine-tuning.
-
Les scénarios MR-Ben impliquent une analyse logique complexe et un raisonnement étape par étape. En mode few-shot, des contextes trop longs ont en fait confondu les modèles, entraînant une diminution des performances.
-
MR-Ben a évalué de nombreuses expériences d'ablation générer-réfléchir-régénérer pour examiner les différences entre les stratégies de prompting. Cela n'a eu aucun effet sur les modèles peu performants et peu d'effet sur les modèles très performants comme GPT4-Turbo. Pour les modèles de niveau intermédiaire, cela a légèrement amélioré les performances car ils corrigeaient parfois des erreurs mais en introduisaient aussi de nouvelles.
-
En divisant grossièrement les sujets d'évaluation MR-Ben en catégories basées sur les connaissances, la logique, le calcul et les algorithmes, différents modèles ont montré des forces et des faiblesses variables à travers les types de raisonnement.
L'équipe de Jia a mis en ligne une méthode d'évaluation en un clic sur GitHub. Un test consomme environ 12M de tokens. Les développeurs peuvent évaluer leurs propres modèles et soumettre les résultats, que l'équipe MR-Ben mettra rapidement à jour sur le classement.