Los tutores de IA e interactúan con modelos en diversas tareas que simulan escenarios reales de interacción con Grok.
En cada interacción, el tutor de IA elige la mejor de las dos respuestas generadas por Grok según los criterios de evaluación que hemos establecido.
Los resultados muestran que, en comparación con Grok-2 mini y Grok-1.5, Grok-2 ha mejorado significativamente en su capacidad de razonamiento al procesar contenido recuperado, así como en el uso de herramientas, como identificar correctamente información faltante, razonar a través de secuencias de eventos y excluir contenido irrelevante.
Según los resultados de las pruebas de referencia, el nivel de Grok-2 básicamente supera a GPT-4 Turbo y Claude 3 Opus, e incluso puede competir con GPT-4o y Llama 3-405B en términos de rendimiento.
Sin embargo, los resultados de las pruebas de referencia revelados por xAI también tienen un poco de "astucia", por ejemplo, aunque se dice que está a la par con GPT-4o, se utilizaron las puntuaciones de mayo de GPT-4o y GPT-4 Turbo, por lo que es difícil no sospechar que esto es una diferencia de tiempo para embellecer los resultados.
Guodong Zhang, miembro del equipo de xAI, escribió:
Curiosamente, a diferencia de la mayoría de nuestras otras empresas y laboratorios, nuestro ritmo de desarrollo es tan rápido que nunca hemos tenido tiempo para escribir informes técnicos formales para cada modelo.
Además, xAI señaló específicamente que en la prueba de referencia de comprensión del lenguaje multitarea a gran escala MMLU, Grok-2 utilizó una versión sin entrenamiento específico para tareas, reflejando más fielmente la capacidad de generalización del modelo y su adaptabilidad a nuevas tareas. En resumen, puede que no sea el mejor, pero es auténtico.
Ahora, tanto Grok-2 como Grok-2 mini se integrarán gradualmente en la plataforma X, y los usuarios de X Premium y Premium+ podrán experimentar estos dos nuevos modelos.
Oficialmente se ha dicho que Grok-2 tiene capacidades de comprensión de texto y visual, y puede integrar información de la plataforma X en tiempo real. Grok-2 mini, por su parte, se enfoca en ser compacto y refinado, logrando un equilibrio entre velocidad y calidad de respuesta.
En comparación con la generación anterior, el mayor cambio de Grok-2 es que ahora puede generar imágenes directamente. Según revelaciones de miembros internos del equipo de xAI, el modelo utilizado para la generación de imágenes es el recientemente popular modelo FLUX.1.
Los usuarios han descubierto que Grok-2 tiene limitaciones en cuanto al número de imágenes que puede generar, con los usuarios Premium pudiendo generar aproximadamente 20-30 imágenes, mientras que los usuarios Premium+ pueden generar más.
El clásico problema de "¿Cuál es más grande, 9.8 o 9.11?" tampoco ha sido un desafío para Grok-2. Incluso puede contar cuántas "r" hay en la palabra "strawberry".
Musk, emocionado, ha retuiteado varios tweets sobre Grok 2, promocionándolo enérgicamente y elogiando el excelente progreso del equipo de xAI.
Sin mirar la publicidad, sino los resultados, Grok-2 parece ser más un nuevo modelo cuyo significado es mayor que su aplicación práctica. Su lanzamiento significa que toda la industria de la IA está comenzando a dar la bienvenida a nuevos modelos de nivel similar a GPT-4, pero quizás no ha traído suficientes sorpresas.
En abril de este año, durante una entrevista con Nicolai Tangen, jefe del fondo soberano de Noruega, Musk dijo que Grok-2 necesitaría alrededor de 20,000 H100 para su entrenamiento.
Y el mes pasado, durante el período de preparación para Grok-2, Musk también reveló que Grok-3 utilizó 100,000 chips NVIDIA H100 para su entrenamiento y se espera que se lance a finales de año, momento en el que podría convertirse en el modelo de IA más potente.
Para esto, Musk incluso no dudó en utilizar los chips de Tesla para dar un impulso al equipo de xAI, lo que provocó el descontento de muchos inversores de Tesla.
Vale la pena mencionar que en un reciente evento X Space, Musk seguía lleno de confianza sobre el futuro de la IA.