Gemini 1.5 Pro (0801) représente la première fois que Google remporte la première place dans l'arène lmsys. (Également premier pour les tâches en chinois)
De plus, cette fois-ci, c'est un double champion, en plus du classement général (le seul score au-dessus de 1300), il est également premier dans le ### classement visuel.
Simon Tokumine, personnage clé de l'équipe Gemini, a publié un message pour célébrer :
(Ce nouveau modèle) est le Gemini le plus puissant et le plus intelligent que nous ayons jamais créé.
Un utilisateur de Reddit a également qualifié le modèle de "très bon" et a exprimé l'espoir que ses fonctionnalités ne seraient pas réduites.
Plus d'internautes ont exprimé avec enthousiasme qu'OpenAI est enfin mis au défi et qu'ils vont devoir publier une nouvelle version pour riposter !
Le compte officiel de ChatGPT est également sorti pour faire allusion à quelque chose.
Au milieu de toute cette effervescence, le responsable produit de Google AI Studio a annoncé que le modèle entre dans une ### phase de test gratuite :
Peut être utilisé gratuitement sur AI studio
### Internautes : Google est enfin arrivé !
Strictement parlant, Gemini 1.5 Pro (0801) n'est pas vraiment un nouveau modèle.
Cette ### version expérimentale est basée sur Gemini 1.5 Pro publié par Google en février, et plus tard, la série 1.5 a étendu la fenêtre contextuelle à 2 millions.
Avec les mises à jour du modèle, ce nom est devenu de plus en plus long, ce qui a également suscité beaucoup de moqueries.
Voilà, un employé d'OpenAI, tout en félicitant, n'a pas pu s'empêcher de faire un commentaire sarcastique :
Bien sûr, bien que le nom soit difficile à retenir, Gemini 1.5 Pro (0801) a brillé dans les tests officiels de l'arène cette fois-ci.
La carte thermique du taux de victoire global montre qu'il a battu GPT-4o de 54% et Claude 3.5 Sonnet de 59%.
Dans les ### tests de référence des capacités multilingues, il s'est classé premier en chinois, japonais, allemand et russe.
Cependant, en Coding et Hard Prompt Arena, il ne peut toujours pas battre des adversaires comme Claude 3.5 Sonnet, GPT-4o et Llama 405B.
Ce point a également été critiqué par les internautes, ce qui se traduit par :
Le codage est le plus important, mais il ne performe pas bien dans ce domaine.
Cependant, certains sont venus promouvoir les ### fonctionnalités d'extraction d'images et de PDF de Gemini 1.5 Pro (0801).
Elvis, co-fondateur de DAIR.AI, a personnellement effectué un test complet sur YouTube et a conclu :
Les capacités visuelles sont très proches de GPT-4o.
De plus, certains ont utilisé Gemini 1.5 Pro (0801) pour résoudre des problèmes que Claude 3.5 Sonet n'avait pas bien résolus auparavant.
Le résultat montre qu'il a non seulement mieux performé, mais a également battu son propre coéquipier Gemini 1.5 Flash.
Cependant, il ne peut toujours pas gérer certains ### tests de bon sens classiques, comme "écrire dix phrases se terminant par pomme".
### Une chose de plus
Pendant ce temps, la série Gemini Gemma 2 de Google a accueilli un nouveau ### modèle de 20 milliards de paramètres.
Gemma 2 (2B) est ### prêt à l'emploi et peut être exécuté sur le GPU T4 gratuit de Google Colab.
Dans le classement de l'arène, il ### dépasse tous les modèles GPT-3.5, et même surpasse Mixtral-8x7b.
Face aux nouveaux classements récemment obtenus par Google, l'### autorité du classement de l'arène est à nouveau remise en question par tous.
Teknium (un acteur bien connu dans le domaine de l'entraînement après ajustement fin), co-fondateur de Nous Research, a publié un avertissement :
Bien que Gemma 2 (2B) obtienne un score plus élevé que GPT-3.5 Turbo dans l'arène, il est bien inférieur à ce dernier sur MMLU. Cette disparité serait préoccupante si les gens utilisaient le classement de l'arène comme seul indicateur de performance des modèles.
Bindu Reddy, PDG d'Abacus.AI, a même directement appelé :
Veuillez cesser immédiatement d'utiliser ce classement d'évaluation humaine ! Claude 3.5 Sonnet est bien meilleur que GPT-4o-mini. De même, Gemini/Gemma ne devraient pas avoir des scores aussi élevés dans ce classement.
Alors, pensez-vous que cette méthode de vote anonyme humain est toujours fiable ? (Bienvenue pour en discuter dans la section commentaires)