匿名モデルのコードネーム「sus-column-r」が最近、大規模言語モデルの競技場で優れた成績を収め、多くの憶測を呼んでいました。昨日、イーロン・マスクがついに謎を明かしました - これはxAIが間もなくリリースする新モデルのGrok2でした。
Grok2は公式の対戦データで好成績を示し、GoogleのGemini 1.5 Pro以外の主要モデル、例えばGPT-4oやClaude 3.5 Sonnetに対して高い勝率を収めました。様々なベンチマークテストでも、Grok2の能力は最高レベルのAIモデルと同等でした。
Grok2の大きなアップグレードの一つは、FLUX.1との協力により実現した画像機能の追加です。テストでは、Grok2が画像生成においてより大胆なスケールを示し、公人をパロディ化するなど、議論を呼ぶようなコンテンツを生成できることが分かりました。これは法的リスクをもたらす可能性があります。
実際の使用では、Grok2は小数の比較や数え上げなど、AIが一般的に間違えやすい基本的な問題で良好な成績を示しました。その回答は通常、詳細なものでした。しかし、深い理解を必要とする問題では、GPT-4oがまだ優位性を持っています。
全体として、Grok2は特に数学などの分野で明らかな能力向上を示しました。しかし、他のトップレベルのAIモデルと比較するとまだ差があり、さらなる改善が必要です。今回のリリースは、AIの分野におけるxAIの野心と進歩を示しています。