Un modèle anonyme codé sus-column-r a récemment excellé dans l'arène des grands modèles, suscitant de nombreuses spéculations. Hier, Musk a finalement révélé le mystère - il s'agit du nouveau modèle Grok2 que xAI s'apprête à lancer.
Grok2 a bien performé dans les données de combat officielles publiées, obtenant des taux de victoire élevés contre d'autres modèles grand public comme GPT-4o et Claude 3.5 Sonnet, à l'exception de Gemini 1.5 Pro de Google. Dans divers tests de référence, les capacités de Grok2 sont également comparables à celles des meilleurs modèles d'IA.
Une amélioration majeure de Grok2 est l'ajout de fonctionnalités d'image, réalisées en collaboration avec FLUX.1. Les tests ont révélé que Grok2 est plus audacieux dans la génération d'images, capable de produire du contenu controversé comme des parodies de personnalités publiques. Cela pourrait entraîner certains risques juridiques.
En utilisation réelle, Grok2 performe bien sur certaines questions de base, comme la comparaison de décimales et le comptage, des problèmes courants où l'IA se trompe facilement. Ses réponses sont généralement détaillées. Cependant, pour les questions nécessitant une compréhension approfondie, GPT-4o conserve un avantage.
Dans l'ensemble, Grok2 démontre une nette amélioration des capacités, en particulier dans des domaines comme les mathématiques. Mais il reste encore un écart avec d'autres modèles d'IA de pointe, nécessitant des améliorations supplémentaires. Cette sortie montre l'ambition et les progrès de xAI dans le domaine de l'IA.