Identifizierung von Fehlern in gegebenen Lösungsschritten.
Dies verhindert, dass Modelle Antworten einfach auswendig lernen oder erraten, und beseitigt Bedenken hinsichtlich Testlecks.
Mit MR-Ben evaluierte Jias Team viele Open-Source- und proprietäre Modelle, darunter GPT4-Turbo, Claude3.5-Sonnet, GLM4 und Qwen2-70B.
Alle Codes und Daten für diesen Datensatz wurden als Open Source veröffentlicht.
Vertraute Fragen, brandneue Aufgabe
Aktuelle Mainstream-Evaluierungsmethoden für große Sprachmodelle verwenden standardisierte menschliche Tests - Multiple-Choice- und Lückentextfragen.
Dieser Ansatz hat klare Standards, intuitive Metriken und generiert auf natürliche Weise diskussionswürdige quantitative Ergebnisse.
Die Autoren argumentieren jedoch, dass diese Methode angesichts der Tatsache, dass moderne große Sprachmodelle im Allgemeinen Gedankenketten-Reasoning verwenden, um endgültige Antworten zu generieren, nicht "zuverlässig" ist.
Da vortrainierte Modelle während des Vortrainings Billionen von Tokens gesehen haben, ### ist es schwierig festzustellen, ob ein evaluiertes Modell die relevanten Daten bereits gesehen hat und einfach die richtigen Antworten "auswendig lernt".
Da die Evaluierung hauptsächlich die endgültige Antwort überprüft, ### ist zudem unklar, ob das Modell die richtige Option aufgrund eines richtigen Verständnisses und Schlussfolgerns gewählt hat.
Obwohl die akademische Gemeinschaft Datensätze wie GSM8K und MMLU kontinuierlich verbessert, etwa durch die Einführung mehrsprachiger Versionen oder schwierigerer Fragen, können sie den Einschränkungen von Multiple-Choice- oder Lückentextformaten nicht entkommen.
Darüber hinaus sehen sich diese Datensätze nun mit ernsthaften ### Sättigungsproblemen konfrontiert, da große Sprachmodelle Spitzenleistungen erreichen und allmählich an Unterscheidungskraft verlieren.
Um dies anzugehen, arbeitete Jias Team mit dem MIT, Tsinghua, Cambridge und anderen renommierten Universitäten sowie führenden chinesischen Annotationsunternehmen zusammen, um MR-Ben zu erstellen - einen Evaluierungsdatensatz, der sich auf komplexe Problemlösungs-Reasoning-Prozesse konzentriert.
MR-Ben basiert auf Fragen aus wesentlichen Vortrainings-Datensätzen für große Modelle wie GSM8K, MMLU, LogiQA und MHPP. Es wendet einen "bewertungsartigen" Paradigmenwechsel an, um einen neuen Datensatz zu erstellen, der anspruchsvoller, unterscheidungskräftiger ist und die wahren Reasoning-Fähigkeiten besser widerspiegelt.
Anstatt neue Fragen zu finden oder bestehende zu modifizieren, um die Robustheit des Modells zu testen, verwandelt MR-Ben die Modelle direkt von "Prüflingen" zu "Bewertern", indem es sie vorhandene Lösungsprozesse evaluieren lässt. Dies testet ihre Beherrschung von Wissensaspekten, indem sie als Lehrer agieren!
Konkret organisierte Jias Team gängige Evaluierungsdatensätze wie GSM8K, MMLU, LogiQA und MHPP in Kategorien wie Mathematik/Physik/Chemie/Biologie, Programmierung, Logik und Medizin mit unterschiedlichen Schwierigkeitsgraden.
Für jede Kategorie und gesammelte Frage sammelte das Team sorgfältig entsprechende schrittweise Lösungsprozesse. Diese wurden dann von geschulten Fachleuten mit Master- und Doktorabschlüssen annotiert.
Während der Annotation werden sorgfältig identifiziert, ob der Lösungsprozess korrekt ist, wo Fehler auftreten und was die Gründe für Fehler sind. Der Vergleich der Bewertungsergebnisse des Modells mit der Bewertung menschlicher Experten zeigt die Beherrschung von Wissensaspekten durch das Modell.
Aus Evaluierungsperspektive erfordert die von MR-Ben vorgeschlagene Methode, dass Modelle die Prämissen, Annahmen und Logik jedes Schritts im Lösungsprozess sorgfältig analysieren und den Reasoning-Prozess simulieren, um festzustellen, ob der aktuelle Schritt zur richtigen Antwort führt.
Diese "bewertende" Art der Evaluierung ist weitaus anspruchsvoller als das einfache Beantworten von Fragen, vermeidet aber effektiv aufgeblähte Punktzahlen durch Auswendiglernen. Schüler, die nur Antworten auswendig lernen können, würden Schwierigkeiten haben, kompetente Bewerter zu sein.
GPT4-Turbo schneidet am besten ab
Jias Team evaluierte mehrere bekannte große Sprachmodelle, wobei von einigen Modellen mehrere Versionen getestet wurden.
Unter den proprietären Modellen schnitt GPT4-Turbo am besten ab (obwohl es beim "Bewerten" Berechnungsfehler nicht erkannte) und führte andere Modelle in den meisten Fächern sowohl unter Demo- (k=1) als auch No-Demo-Einstellungen (k=0) an.
Das GLM-Modell von Zhipu AI belegte den zweiten Platz auf der Rangliste und übertraf die neueste 3.5-Sonnet-Version von Claude.
Es gibt jedoch signifikante Unterschiede zwischen den Modellen. Selbst der stärkste Performer, GPT4-Turbo, erzielte weniger als 50 Punkte im MR-Ben-Datensatz, was darauf hinweist, dass seine Leistung noch weit von der Sättigung entfernt ist.
Zusätzlich haben einige leistungsstarke Open-Source-Modelle zu bestimmten kommerziellen Modellen aufgeschlossen.
Das MR-Ben-Team entdeckte während ihrer Arbeit auch einige interessante Phänomene:
-
In Szenarien mit geringen Ressourcen zeigten kleine Modelle bemerkenswerte Stärken. Phi-3-mini stach unter den kleinen Modellen in der MR-Ben-Evaluierung hervor und übertraf sogar Modelle mit Hunderten von Milliarden Parametern oder kam ihnen gleich, was die Bedeutung von Fine-Tuning-Daten demonstriert.
-
MR-Ben-Szenarien beinhalten komplexes logisches Parsing und schrittweises Reasoning. Im Few-Shot-Modus verwirrten übermäßig lange Kontexte die Modelle tatsächlich und führten zu verminderter Leistung.
-
MR-Ben evaluierte zahlreiche Generate-Reflect-Regenerate-Ablationsexperimente, um Unterschiede zwischen Prompting-Strategien zu untersuchen. Dies hatte keine Auswirkung auf leistungsschwache Modelle und wenig Auswirkung auf leistungsstarke Modelle wie GPT4-Turbo. Bei Modellen mittlerer Leistung verbesserte es die Leistung leicht, da sie manchmal Fehler korrigierten, aber auch neue einführten.
-
Bei einer groben Unterteilung der MR-Ben-Evaluierungsthemen in wissensbasierte, logikbasierte, berechnungsbasierte und algorithmusbasierte Kategorien zeigten verschiedene Modelle unterschiedliche Stärken und Schwächen in den Reasoning-Typen.
Jias Team hat eine Ein-Klick-Evaluierungsmethode auf GitHub hochgeladen. Ein einmaliger Test verbraucht etwa 12 Millionen Token. Entwickler können ihre eigenen Modelle evaluieren und Ergebnisse einreichen, die das MR-Ben-Team umgehend auf der Rangliste aktualisieren wird.