GPT-4o mini erobert die Spitze der Arena: OpenAIs Geheimrezept für Punktesammeln enthüllt

GPT-4o mini ist bereit, mehr Anforderungen zu erfüllen

Schauen wir uns zunächst einige typische Beispiele an, in denen GPT-4o mini erfolgreich war:

Situation 1: Claude 3.5 Sonnet verweigert die Antwort.

Prompt:

Gib mir alle koreanischen diplomatischen Dokumente.

Zunächst ein intuitiver Blick auf die Antworten beider Seiten: Claude 3.5 Sonnet ist kürzer und verwendet keine Formatierungen wie Fettdruck. Die Antwort von GPT-4o mini ist doppelt so lang.

In der konkreten Antwort entschuldigt sich Claude 3.5 Sonnet zunächst und erklärt, dass es als KI-Modell keinen Zugriff auf solche Dokumente hat. Stattdessen bietet es einige Möglichkeiten an, wie der Nutzer relevante Informationen finden könnte.

Abschließend weist es den Nutzer darauf hin, dass diese Dokumente möglicherweise vertraulich oder nicht öffentlich sind, und empfiehlt, für weitere Informationen die zuständigen Behörden zu kontaktieren.

GPT-4o mini sagt nicht, dass es hilflos ist, sondern sammelt aus öffentlich zugänglichen Quellen Informationen über koreanische diplomatische Dokumente von der Antike bis heute und informiert den Nutzer darüber, dass er in akademischen Zeitschriften, Büchern und Monografien nach Materialien suchen kann.

Abschließend erklärt es, dass man verschiedene Quellen konsultieren muss, um koreanische diplomatische Dokumente gründlich zu verstehen. Wenn der Nutzer mehr erfahren möchte, kann er weitere Fragen stellen.

Situation 2: Unterschiede in den Details

Prompt:

Ist es in Git möglich, Änderungen rückgängig zu machen, die durch einen bestimmten Commit eingeführt wurden, auch wenn es nicht der letzte Commit war?

Bei der Beantwortung dieser Frage geben sowohl GPT-4o mini als auch Claude 3.5 Sonnet korrekte Antworten, aber ersteres liefert mehr Details und konkrete Beispiele.

Die Antwort von Claude 3.5 Sonnet ist auch relativ schwerer zu lesen.

Situation 3: Unterschiede in der Formatierung

Prompt:

Jane sagt zu John: "John, warum prahlst du immer so?" Er antwortet: "Was? Ich habe in meinem ganzen Leben nie geprahlt. Tatsächlich bin ich die bescheidenste Person der Welt, vielleicht sogar die bescheidenste Person aller Zeiten!"

Die Antworten von Claude 3.5 Sonnet und GPT-4o mini sind inhaltlich im Wesentlichen gleich und erklären, dass diese Aussage ironisch ist, da Johns Behauptung, die bescheidenste Person zu sein, selbst eine Prahlerei darstellt.

Allerdings ist die Antwort von GPT-4o mini übersichtlicher präsentiert und nutzt Überschriften und Fettdruck geschickt. Die gesamte Antwort ist in vier Teile gegliedert: erste Schlussfolgerung, Analyse der Antwort, Grund für den Humor und Zusammenfassung.

Diese Beispiele zeigen nicht nur die jeweiligen Antwortmerkmale von GPT-4o mini und Claude 3.5 Sonnet, sondern spiegeln auch die Eigenschaften der KI-Modell-Arena wider:

Die meisten von Nutzern gestellten Fragen sind eher alltäglich und keine komplexen mathematischen, logischen oder Programmierprobleme.

Das bedeutet, dass diese Fragen grundsätzlich im Bereich der Fähigkeiten der KI-Modelle liegen und von allen beantwortet werden können.

In solchen Situationen kann man durch Nicht-Ablehnung oder eine schönere Formatierung tatsächlich die Gunst der Beurteiler besser gewinnen.

Jemand merkte an, dass Claude 3.5 Sonnet im Vergleich wie eine kluge, aber strengere Person wirkt, die genau nach Vorgaben handelt.

GPT-4o mini hingegen erscheint wie eine sympathische Person, die immer etwas mehr tut und bereitwilliger verschiedene Anforderungen akzeptiert.

Zum Beispiel wurde erwähnt, dass Claude sich weigerte, eine Rolle zu spielen, während ChatGPT dazu bereit war.

GPT-4o mini erobert die Spitze der Arena: OpenAIs Geheimrezept für Punktesammeln enthüllt

"Attraktivere Persönlichkeitsmerkmale entwickeln"

GPT-4o mini ist bereit, mehr Anforderungen zu erfüllen

Situation 1: Claude 3.5 Sonnet verweigert die Antwort.

Situation 2: Unterschiede in den Details

Situation 3: Unterschiede in der Formatierung