Les tuteurs IA et les modèles interagissent dans diverses tâches simulant des scénarios d'interaction réels avec Grok.
Dans chaque interaction, le tuteur IA choisit la meilleure des deux réponses générées par Grok selon nos critères d'évaluation.
Les résultats montrent que Grok-2 a fait des progrès significatifs par rapport à Grok-2 mini et Grok-1.5 en termes de capacité de raisonnement lors du traitement du contenu récupéré, ainsi que dans l'utilisation d'outils, comme l'identification correcte des informations manquantes, le raisonnement à travers des séquences d'événements et l'exclusion de contenu non pertinent.
Selon les résultats des tests de référence, le niveau de Grok-2 surpasse généralement GPT-4 Turbo et Claude 3 Opus, et peut même rivaliser avec GPT-4o et Llama 3-405B en termes de performance.
Cependant, les résultats des tests de référence divulgués par xAI ont un peu de "subtilité", par exemple, bien qu'il soit dit être à égalité avec GPT-4o, ils ont utilisé les scores de mai pour GPT-4o et GPT-4 Turbo, il est donc difficile de ne pas soupçonner que c'est un décalage temporel pour embellir les résultats.
Guodong Zhang, membre de l'équipe xAI, a écrit :
Il est intéressant de noter que, contrairement à la plupart des autres entreprises et laboratoires, notre développement est si rapide que nous n'avons jamais eu le temps d'écrire des rapports techniques formels pour chaque modèle.
De plus, xAI a spécifiquement souligné que dans le test de référence MMLU de compréhension du langage multi-tâches à grande échelle, Grok-2 utilisé n'avait pas été entraîné pour des tâches spécifiques, reflétant plus fidèlement la capacité de généralisation du modèle et son adaptabilité aux nouvelles tâches. En bref, il peut être moins performant, mais il est plus authentique.
Maintenant, Grok-2 et Grok-2 mini seront progressivement intégrés à la plateforme X, et les utilisateurs X Premium et Premium+ pourront expérimenter ces deux nouveaux modèles.
Officiellement, il a été déclaré que Grok-2 possède des capacités de compréhension textuelle et visuelle, et peut intégrer en temps réel les informations de la plateforme X. Grok-2 mini, quant à lui, se concentre sur la compacité et l'élégance, réalisant un équilibre entre vitesse et qualité des réponses.
Par rapport à la génération précédente, le plus grand changement de Grok-2 est sa capacité à générer directement des images. Selon les membres internes de l'équipe xAI, le modèle utilisé pour la génération d'images est en fait le modèle FLUX.1 récemment populaire.
Les internautes ont découvert que Grok-2 a des limitations sur le nombre d'images générées, les utilisateurs Premium pouvant générer environ 20 à 30 images, tandis que les utilisateurs Premium+ peuvent en générer davantage.
Le problème classique "Lequel est plus grand entre 9.8 et 9.11" n'a pas non plus posé de difficulté à Grok-2. Il peut même compter combien de "r" il y a dans le mot "strawberry".
Elon Musk, enthousiasmé, a retweeté plusieurs messages concernant Grok 2, faisant une grande promotion pour lui, et a loué l'excellente vitesse de progression de l'équipe xAI.
Sans regarder la publicité, mais en regardant l'efficacité, Grok-2 ressemble plus à un nouveau modèle dont la signification dépasse la réalité pratique. Son lancement signifie que l'ensemble de l'industrie de l'IA commence à accueillir de nouveaux modèles de niveau GPT-4, mais n'a peut-être pas apporté suffisamment de surprises.
En avril de cette année, lors d'une interview avec Nicolai Tangen, responsable du fonds souverain norvégien, Musk a déclaré que Grok-2 nécessitait environ 20 000 H100 pour l'entraînement.
Et le mois dernier, lors de la période de préchauffage de Grok-2, Musk a également révélé que Grok-3 utilisait 100 000 puces NVIDIA H100 pour l'entraînement, et devrait être lancé à la fin de l'année, avec l'espoir de devenir le modèle d'IA le plus puissant.
Pour cela, Musk n'a même pas hésité à utiliser les puces de Tesla pour renforcer l'équipe xAI, au point de mécontenter de nombreux investisseurs de Tesla.
Il convient de noter que lors d'un récent événement X Space, Musk reste confiant quant à l'avenir de l'IA.