GPT-4 encuentra un rival formidable: el nuevo modelo de Google lo supera, ChatGPT pide calma

Gemini 1.5 Pro (0801) representa la primera vez que Google gana el primer lugar en la arena lmsys. (También el primero en tareas en chino)

Además, esta vez fue un doble campeón, además de la clasificación general (el único puntaje por encima de 1300), también es el primero en la ### clasificación visual.

Simon Tokumine, una figura clave del equipo Gemini, publicó para celebrar diciendo:

(Este nuevo modelo) es el Gemini más poderoso e inteligente que hemos creado.

Un usuario de Reddit también llamó al modelo "muy bueno" y expresó su esperanza de que sus funciones no se reduzcan.

Más usuarios de internet expresaron emocionados que OpenAI finalmente está siendo desafiado y tendrá que lanzar una nueva versión para contraatacar.

La cuenta oficial de ChatGPT también salió a insinuar algo.

En medio de toda la emoción, el responsable del producto Google AI Studio anunció que el modelo entra en la ### fase de prueba gratuita:

Se puede usar gratis en AI studio

### Usuarios de internet: ¡Google finalmente llegó!

Estrictamente hablando, Gemini 1.5 Pro (0801) en realidad no es un nuevo modelo.

Esta ### versión experimental se basa en Gemini 1.5 Pro lanzado por Google en febrero, y luego la serie 1.5 amplió la ventana de contexto a 2 millones.

A medida que el modelo se actualiza, este nombre también se está haciendo cada vez más largo, lo que también ha provocado una ola de burlas.

De hecho, un empleado de OpenAI, mientras felicitaba, no pudo evitar hacer un comentario sarcástico:

Por supuesto, aunque el nombre es difícil de recordar, Gemini 1.5 Pro (0801) tuvo un desempeño destacado en las pruebas oficiales de la arena esta vez.

El mapa de calor de la tasa de victoria general muestra que superó a GPT-4o en un 54% y a Claude 3.5 Sonnet en un 59%.

En la ### prueba de referencia de capacidad multilingüe, se ubicó en primer lugar en chino, japonés, alemán y ruso.

Sin embargo, en Coding y Hard Prompt Arena, todavía no puede vencer a oponentes como Claude 3.5 Sonnet, GPT-4o y Llama 405B.

Este punto también fue criticado por los usuarios de internet, lo que se traduce en:

La codificación es lo más importante, pero no se desempeña bien en esto.

Sin embargo, también hubo personas que promocionaron las funciones de ### extracción de imágenes y PDF de Gemini 1.5 Pro (0801).

Elvis, cofundador de DAIR.AI, realizó personalmente una prueba completa en YouTube y concluyó:

La ### capacidad visual está muy cerca de GPT-4o.

Además, algunas personas usaron Gemini 1.5 Pro (0801) para resolver preguntas que Claude 3.5 Sonet no había respondido bien anteriormente.

El resultado mostró que no solo se desempeñó mejor, sino que también superó a su compañero Gemini 1.5 Flash.

Sin embargo, todavía no puede manejar algunas ### pruebas clásicas de sentido común, como "escribir diez oraciones que terminen con manzana".

### Una cosa más

Mientras tanto, la serie Gemma 2 de Google recibió un nuevo ### modelo de 20 mil millones de parámetros.

Gemma 2 (2B) está ### listo para usar y se puede ejecutar en la GPU T4 gratuita de Google Colab.

En la clasificación de la arena, ### superó a todos los modelos GPT-3.5 e incluso superó a Mixtral-8x7b.

Frente a las nuevas clasificaciones obtenidas recientemente por Google, la ### autoridad del ranking de la arena volvió a ser cuestionada por todos.

Teknium (un jugador conocido en el campo del entrenamiento después del ajuste fino), cofundador de Nous Research, publicó una advertencia:

Aunque Gemma 2 (2B) obtuvo una puntuación más alta que GPT-3.5 Turbo en la arena, está muy por debajo de este último en MMLU. Esta discrepancia sería preocupante si la gente usara el ranking de la arena como único indicador del rendimiento del modelo.

Bindu Reddy, CEO de Abacus.AI, hizo un llamado directo:

¡Por favor, dejen de usar inmediatamente este ranking de evaluación humana! Claude 3.5 Sonnet es mucho mejor que GPT-4o-mini. De manera similar, Gemini/Gemma no deberían obtener puntuaciones tan altas en este ranking.

Entonces, ¿crees que este método de votación anónima humana todavía es confiable? (Bienvenidos a discutir en la sección de comentarios)

Enlaces de referencia:

[1]https://x.com/lmsysorg/status/1819048821294547441