GPT-4遇強敵：谷歌新模型超越，ChatGPT呼籲冷靜

而且這次還是雙冠王，除了總榜（唯一分數上1300），在### 視覺排行榜上也是第一。

Gemini團隊的關鍵人物Simon Tokumine發文慶祝稱：

(這一新模型）是我們製作過的最強大、最聰明的Gemini。

一位Reddit用戶也稱該模型"非常好"，並表示希望其功能不會被縮減。

更多網友興奮表示，OpenAI終於受到挑戰，要發布新版本來反擊了!

ChatGPT官方帳號也出來暗示著什麼。

一片熱鬧之際，谷歌AI Studio產品負責人宣布該模型進入### 免費測試階段：

可在AI studio免費使用

### 網友：谷歌終於來了！

嚴格來說，Gemini 1.5 Pro（0801）其實不算新模型。

該### 實驗性版本建立在谷歌2月發布的Gemini 1.5 Pro基礎之上，後來1.5系列將上下文窗口擴展到了200萬。

隨著模型更新，這命名也是越來越長了，也引起人們一片吐槽。

這不，一位OpenAI員工祝賀之餘不忘陰陽怪氣一把：

當然了，雖然名字難記，但Gemini 1.5 Pro（0801）這次在競技場官方評測中表現亮眼。

總體勝率熱圖顯示，它比GPT-4o勝出54%，比Claude 3.5 Sonnet勝出59%。

在### 多語言能力基準測試中，它在中文、日語、德語、俄語均排名第一。

但是，在Coding、Hard Prompt Arena中，它還是打不過Claude 3.5 Sonnet、GPT-4o、Llama 405B等對手。

這一點也遭到網友詬病，轉譯過來就是：

編碼才是最重要的，但它在這上面表現不佳。

不過也有人出來安利Gemini 1.5 Pro（0801）的### 圖像和PDF提取功能。

DAIR.AI聯合創始人Elvis親自在油管做了全套測試，並總結道：

視覺能力非常接近GPT-4o。

以及，有人拿Gemini 1.5 Pro（0801）來解決Claude 3.5 Sonet之前回答不好的問題。

結果一看，它不僅表現更好，同時也幹掉了自家小夥伴Gemini 1.5 Flash。

不過嘛，一些### 經典常識測試它還是搞不定，比如"寫十個以蘋果結尾的句子"。

與此同時，谷歌Gemma 2系列迎來了一個新的### 20億參數模型。

Gemma 2（2B）### 開箱即用，可以在Google Colab的免費T4 GPU上運行。

在競技場排行榜上，它### 超過了所有GPT-3.5模型，甚至超越了Mixtral-8x7b。

面對谷歌最新取得的一系列新排名，競技場### 榜單權威性再次受到大家質疑。

Nous Research聯合創始人Teknium（微調後訓練領域知名玩家）發文提醒：

雖然Gemma 2（2B）在競技場得分高於GPT-3.5 Turbo，但它在MMLU上遠低於後者。如果人們使用競技場排名作為模型性能的唯一指標，這種差異就會令人擔憂。

Abacus.AI首席執行官Bindu Reddy更是直接呼籲：

請立即停止使用這個人類評估排行榜！Claude 3.5 Sonnet比GPT-4o-mini好得多。類似的Gemini/Gemma在這個排行榜上的得分都不應該這麼高。

那麼，你認為這種人類匿名投票的方式還靠譜嗎？（歡迎評論區討論）