AI 導師與模型在各種任務中進行互動,這些任務模擬了與 Grok 的真實互動場景。
在每次互動中,AI 導師會根據我們制定的評估標準,從 Grok 生成的兩個回應中選擇出更佳的一個。
結果表明,相比 Grok-2 mini 以及 Grok-1.5,Grok-2 在處理檢索到的內容時的推理能力,以及在使用工具方面的能力,如正確識別缺失信息、通過事件序列進行推理以及排除無關內容等方面,都有了顯著的進步。
從基準測試結果來看,Grok-2 的水準基本上能夠碾壓 GPT-4 Turbo 以及 Claude 3 Opus,甚至在表現上也能與 GPT-4o 以及 Llama 3-405B 互有勝負。
不過,xAI 所披露的基準測試結果也有點"小心思",比如雖說能和 GPT-4o 不分伯仲,但是用的卻是 GPT-4o 以及 GPT-4 Turbo 5 月份的得分,所以很難不讓人懷疑這是為了美化結果所打的時間差。
xAI 團隊成員 Guodong Zhang 則發文稱:
有趣的是,與我們大多數其他公司和實驗室不同,我們的發展速度非常快,以至於我們一直沒有時間為每個模型發布編寫正式的技術報告。
此外,xAI 還特地指出,Grok-2 在大規模多任務語言理解基準測試 MMLU 中,使用的是沒有經過特定任務訓練的 Grok-2,更真實地反映了該模型的泛化能力和對新任務的適應性。簡言之,哥們菜歸菜,但勝在真實。
現在,Grok-2 和 Grok-2 mini 都將逐步集成到 X 平台上,X Premium 和 Premium+ 用戶均可體驗這兩款新模型。
官方說了,Grok-2 具備文本和視覺理解能力,能實時整合 X 平台的信息。Grok-2 mini 則主打小巧精緻,在速度和答案質量之間實現了平衡。
與前代相比,Grok-2 的最大變化莫過於能直接生成圖片了。據 xAI 團隊內部成員透露,生圖的模型正是用到了近期大火的 FLUX.1 模型。
網友發現,Grok-2 在圖片生成次數方面存在限制,Premium 用戶預計能夠生成約 20 - 30 張圖像,而 Premium+ 用戶能夠生成更多。
"9.8 和 9.11 哪個大"的經典難題也沒難倒 Grok-2。甚至也能數清草莓(strawberry)裡有多少個"r"的難題。
激動不已的馬斯克接連轉發了數條有關 Grok 2 的推文,為其大力站台宣傳,並盛讚 xAI 團隊進展速度非常出色。
不看廣告,看療效,Grok-2 更像是一款意義大於實際的新模型,它的發布意味著整個 AI 行業開始迎來了新的類 GPT-4 級別模型,但或許並沒有帶來足夠多的驚喜。
今年 4 月,馬斯克在接受挪威主權基金負責人 Nicolai Tangen 採訪時表示,Grok-2 需要大約 2 萬張 H100 來進行訓練。
而上個月在給 Grok-2 的預熱期間,馬斯克也透露 Grok-3 用了 10 萬塊英偉達 H100 芯片進行訓練,預計將於年底發布,屆時將有望成為最強的 AI 大模型。
為此,馬斯克甚至不惜調用特斯拉的芯片來給 xAI 團隊加 Buff,以至於惹得特斯拉投資者紛紛不滿。
值得一提的是,在最近的 X Space 活動上,馬斯克依然對 AI 的未來充滿信心。