AIチューターとモデルは、Grokとの実際の対話シナリオをシミュレートするさまざまなタスクで相互作用します。
各対話において、AIチューターは設定された評価基準に基づいて、Grokが生成した2つの応答からより適切なものを選択します。
結果は、Grok-2がGrok-2 miniおよびGrok-1.5と比較して、検索された情報の推論能力、ツールの使用能力、欠落情報の正確な識別、イベントシーケンスを通じた推論、無関係な内容の除外などの面で著しい進歩を遂げたことを示しています。
ベンチマークテストの結果から見ると、Grok-2のレベルはGPT-4 TurboやClaude 3 Opusを圧倒し、GPT-4oやLlama 3-405Bとも互角の性能を示しています。
しかし、xAIが公開したベンチマークテスト結果には少し「工夫」があります。例えば、GPT-4oと互角と言いながら、GPT-4oとGPT-4 Turboの5月のスコアを使用しているため、結果を美化するためのタイミングの差を利用しているのではないかと疑わざるを得ません。
xAIチームのメンバーGuodong Zhangは次のように述べています:
興味深いことに、他の多くの企業や研究所とは異なり、私たちの開発速度は非常に速く、各モデルのリリースごとに正式な技術報告書を書く時間がありませんでした。
さらに、xAIは特に、Grok-2が大規模マルチタスク言語理解ベンチマークMMULUで、特定のタスクのトレーニングを受けていないGrok-2を使用し、このモデルの汎化能力と新しいタスクへの適応性をより真実に反映していると指摘しています。簡単に言えば、能力は劣るかもしれませんが、真実性が勝っているということです。
現在、Grok-2とGrok-2 miniは段階的にXプラットフォームに統合され、XプレミアムとPremium+ユーザーはこれら2つの新しいモデルを体験できます。
公式発表によると、Grok-2はテキストと視覚理解能力を持ち、Xプラットフォームの情報をリアルタイムで統合できます。Grok-2 miniは小型で洗練されており、速度と回答の質のバランスを取っています。
前世代と比較して、Grok-2の最大の変化は画像を直接生成できるようになったことです。xAIチームの内部メンバーによると、画像生成モデルには最近話題のFLUX.1モデルが使用されているとのことです。
ユーザーは、Grok-2の画像生成回数に制限があることを発見しました。Premiumユーザーは約20-30枚の画像を生成でき、Premium+ユーザーはさらに多くの画像を生成できると予想されています。
「9.8と9.11のどちらが大きいか」という古典的な難問もGrok-2を悩ませることはありませんでした。さらに、「strawberry」に「r」が何個あるかを数える難問も解決できます。
興奮したマスクは、Grok 2に関する複数のツイートを連続して転載し、大々的に宣伝し、xAIチームの進歩の速さを絶賛しました。
広告ではなく効果を見ると、Grok-2は実際よりも意義が大きい新しいモデルのように見えます。その発表はAI業界全体が新しいGPT-4レベルのモデルを迎え始めたことを意味しますが、おそらく十分な驚きをもたらしてはいません。
今年4月、マスクはノルウェーの主権基金責任者Nicolai Tangenのインタビューで、Grok-2のトレーニングには約2万枚のH100が必要だと述べました。
先月のGrok-2の予熱期間中、マスクはGrok-3が10万枚のNVIDIA H100チップを使用してトレーニングされ、年末に発表される予定であり、その時点で最強のAI大規模モデルになる可能性があると明かしました。
このために、マスクはxAIチームにバフを与えるためにテスラのチップを使用することさえ厭わず、テスラの投資家たちの不満を招きました。
注目すべきは、最近のX Spaceイベントで、マスクはAIの未来に対して依然として自信を持っていることです。