Gemini 1.5 Pro(0801)がGoogleとして初めてlmsysアリーナで1位を獲得。(中国語タスクでも1位)
しかも今回はダブルクラウンで、総合ランキング(唯一1300点以上)だけでなく、### 視覚ランキングでも1位。
Geminiチームの主要メンバーSimon Tokumineは祝福のメッセージを投稿:
(この新モデルは)私たちが作った中で最も強力で賢いGeminiです。
あるRedditユーザーもこのモデルを「非常に優れている」と評し、機能が縮小されないことを望むと述べた。
多くのネットユーザーは興奮して、OpenAIがついに挑戦を受け、新バージョンをリリースして反撃するだろうと述べた!
ChatGPTの公式アカウントも何かを暗示するように現れた。
盛り上がる中、GoogleのAI Studioプロダクトマネージャーがこのモデルの### 無料テストフェーズ開始を発表:
AI studioで無料で使用可能
### ネットユーザー:Googleがついに来た!
厳密に言えば、Gemini 1.5 Pro(0801)は実際には新しいモデルではない。
この### 実験的バージョンは、Googleが2月にリリースしたGemini 1.5 Proをベースにしており、後に1.5シリーズはコンテキストウィンドウを200万まで拡張した。
モデルの更新とともに、この命名もどんどん長くなり、人々の批判を浴びている。
そこで、あるOpenAIの従業員は祝福しつつも皮肉を込めてこう言った:
もちろん、名前は覚えにくいが、Gemini 1.5 Pro(0801)は今回のアリーナの公式評価で目覚ましい成績を収めた。
全体的な勝率のヒートマップでは、GPT-4oに54%、Claude 3.5 Sonnetに59%勝っている。
多言語能力のベンチマークテストでは、中国語、日本語、ドイツ語、ロシア語のすべてで1位を獲得した。
しかし、CodingやHard Prompt Arenaでは、Claude 3.5 Sonnet、GPT-4o、Llama 405Bなどの対戦相手に勝てなかった。
この点についてもネットユーザーから批判があり、翻訳すると:
コーディングが最も重要だが、この点で良い成績を収めていない。
しかし、Gemini 1.5 Pro(0801)の### 画像とPDF抽出機能を推奨する人もいる。
DAIR.AIの共同創設者Elvisが自らYouTubeで全面的なテストを行い、こう結論づけた:
視覚能力はGPT-4oに非常に近い。
また、Gemini 1.5 Pro(0801)を使ってClaude 3.5 Sonetが以前うまく答えられなかった問題を解決しようとした人もいる。
結果を見ると、より良いパフォーマンスを示しただけでなく、自社の仲間であるGemini 1.5 Flashも打ち負かした。
しかし、「リンゴで終わる文を10個書く」といった### 典型的な常識テストはまだうまくできない。
### もう一つ
同時に、GoogleのGemmaシリーズに新しい### 20億パラメータモデルが登場した。
Gemma 2(2B)は### すぐに使用可能で、Google Colabの無料T4 GPUで実行できる。
アリーナのランキングでは、### すべてのGPT-3.5モデルを上回り、さらにMixtral-8x7bも超えた。
Googleが最近達成した一連の新しいランキングに直面し、アリーナの### ランキングの信頼性が再び疑問視されている。
Nous Researchの共同創設者Teknium(微調整後のトレーニング分野で有名なプレイヤー)は警告のメッセージを投稿:
Gemma 2(2B)はアリーナでGPT-3.5 Turboより高いスコアを獲得しているが、MMLUでは後者をはるかに下回っている。人々がアリーナのランキングをモデルのパフォーマンスの唯一の指標として使用するなら、この差異は懸念すべきだ。
Abacus.AIのCEO Bindu Reddyはさらに直接的に呼びかけた:
この人間による評価ランキングの使用を直ちに中止してください!Claude 3.5 SonnetはGPT-4o-miniよりはるかに優れています。同様に、Gemini/Gemmaもこのランキングでこれほど高いスコアを獲得すべきではありません。
さて、あなたはこの人間の匿名投票方式がまだ信頼できると思いますか?(コメント欄での議論歓迎)