GPT-4 trifft auf starken Gegner: Googles neues Modell übertrifft es, ChatGPT ruft zur Besonnenheit auf

Google hat mit seinem großen Sprachmodell zum ersten Mal den Spitzenplatz in einer maßgeblichen Bewertung erreicht, was einen bedeutenden Durchbruch im Bereich der künstlichen Intelligenz darstellt. Diese Leistung demonstriert nicht nur Googles Stärke in der KI-Technologie, sondern deutet auch auf mögliche Veränderungen im Wettbewerbsumfeld der großen Sprachmodelle hin.

Gemini 1.5 Pro (0801) repräsentiert Googles ersten Sieg auf Platz 1 in der lmsys Arena. (Auch Platz 1 bei chinesischen Aufgaben)

Außerdem ist es diesmal ein Doppelsieg, neben der Gesamtwertung (als einziger mit über 1300 Punkten) ist es auch ### auf der visuellen Rangliste auf Platz 1.

Simon Tokumine, eine Schlüsselfigur im Gemini-Team, postete zur Feier:

(Dieses neue Modell) ist das leistungsfähigste und klügste Gemini, das wir je entwickelt haben.

Ein Reddit-Nutzer bezeichnete das Modell ebenfalls als "sehr gut" und äußerte die Hoffnung, dass seine Funktionen nicht reduziert werden.

Weitere Internetnutzer äußerten aufgeregt, dass OpenAI endlich herausgefordert wird und eine neue Version veröffentlichen muss, um zurückzuschlagen!

Auch das offizielle ChatGPT-Konto deutete etwas an.

Inmitten der Aufregung kündigte der Produktverantwortliche von Google AI Studio an, dass das Modell in die ### kostenlose Testphase eintritt:

Kostenlos nutzbar in AI Studio

### Internetnutzer: Google ist endlich da!

Streng genommen ist Gemini 1.5 Pro (0801) eigentlich kein neues Modell.

Diese ### experimentelle Version baut auf dem von Google im Februar veröffentlichten Gemini 1.5 Pro auf, später wurde das Kontextfenster der 1.5-Serie auf 2 Millionen erweitert.

Mit den Modellupdates wurde die Namensgebung immer länger, was zu einigem Spott führte.

Ein OpenAI-Mitarbeiter gratulierte, konnte sich aber einen sarkastischen Kommentar nicht verkneifen:

Natürlich, obwohl der Name schwer zu merken ist, zeigte Gemini 1.5 Pro (0801) diesmal beeindruckende Leistungen in den offiziellen Arena-Tests.

Die Gesamtsieg-Heatmap zeigt, dass es GPT-4o mit 54% und Claude 3.5 Sonnet mit 59% übertraf.

In ### mehrsprachigen Benchmark-Tests belegte es in Chinesisch, Japanisch, Deutsch und Russisch jeweils den ersten Platz.

Allerdings konnte es bei Coding und Hard Prompt Arena immer noch nicht Claude 3.5 Sonnet, GPT-4o, Llama 405B und andere Konkurrenten schlagen.

Dieser Punkt wurde auch von Internetnutzern kritisiert, übersetzt bedeutet das:

Coding ist am wichtigsten, aber es schneidet dabei schlecht ab.

Allerdings gab es auch Leute, die für die ### Bild- und PDF-Extraktionsfunktionen von Gemini 1.5 Pro (0801) warben.

DAIR.AI-Mitbegründer Elvis führte persönlich einen vollständigen Test auf YouTube durch und fasste zusammen:

Die ### visuelle Fähigkeit ist sehr nahe an GPT-4o.

Außerdem verwendeten einige Leute Gemini 1.5 Pro (0801), um Fragen zu beantworten, die Claude 3.5 Sonet zuvor nicht gut beantwortet hatte.

Das Ergebnis zeigte, dass es nicht nur besser abschnitt, sondern auch seinen eigenen Kollegen Gemini 1.5 Flash schlug.

Allerdings konnte es einige ### klassische Allgemeinwissenstests immer noch nicht bewältigen, wie zum Beispiel "Schreibe zehn Sätze, die mit Apfel enden".

### One More Thing

Gleichzeitig begrüßte die Google Gemma 2-Serie ein neues ### 2-Milliarden-Parameter-Modell.

Gemma 2 (2B) ist ### sofort einsatzbereit und kann auf der kostenlosen T4 GPU von Google Colab ausgeführt werden.

In der Arena-Rangliste ### übertrifft es alle GPT-3.5-Modelle und sogar Mixtral-8x7b.

Angesichts der neuesten Ranglistenplatzierungen von Google wurde die ### Autorität der Arena-Rangliste erneut von vielen in Frage gestellt.

Teknium, Mitbegründer von Nous Research (bekannter Spieler im Bereich des Feintunings nach dem Training), postete zur Warnung:

Obwohl Gemma 2 (2B) in der Arena höher als GPT-3.5 Turbo bewertet wird, liegt es bei MMLU weit darunter. Diese Diskrepanz wäre besorgniserregend, wenn Leute die Arena-Rangliste als einzigen Indikator für Modellleistung verwenden würden.

Bindu Reddy, CEO von Abacus.AI, forderte sogar direkt:

Bitte hören Sie sofort auf, diese von Menschen bewertete Rangliste zu verwenden! Claude 3.5 Sonnet ist viel besser als GPT-4o-mini. Ähnlich sollten Gemini/Gemma in dieser Rangliste nicht so hoch bewertet werden.

Was denkst du, ist diese Art der anonymen menschlichen Abstimmung noch zuverlässig? (Diskussion in den Kommentaren willkommen)

Referenzlinks:

[1]https://x.com/lmsysorg/status/1819048821294547441