馬斯克xAI推新模型:進步顯著但未達領先地位

Grok的圖像生成功能不設限制,導致用戶可自由創作政治人物圖像,而ChatGPT則拒絕生成此類內容。

"Grok的進度是火箭。"馬斯克如此興奮地在X上宣布Grok-2的到來。

當地時間8月14日,xAI發布了Grok-2和Grok-2mini兩款AI模型的測試版。其中,Grok-2是該公司推理能力最強的語言模型,而輕量化模型Grok-2mini則是Grok-2的"兄弟產品",試圖實現小參數體型下的強功能。

xAI在博客文章中表示,Grok-2的早期預覽版相較於Grok-1.5有了重大進步,具有聊天、編碼和推理方面的前沿功能。

該公司聲稱,Grok-2的早期版本以"sus-column-r"的名稱進行測試,在LMSYS排行榜上的表現優於Anthropic公司的Claude 3.5 Sonnet和OpenAI的GPT-4-Turbo。LMSYS排行榜通過在大語言模型間進行隨機匿名的一對一"對戰",並基於ELO評級系統得出排名。

sus-column-r(Grok 2早期版本)現已公開,憑藉超過12000個社區投票,sus-column-r在總體排行榜上獲得了第3名,與GPT-4o相當。它在編碼獲得第2名、困難提示獲得第4名,數學方面也取得第2名。

xAI還通過AI導師系統測試Grok與新的模型互動表現,Grok-2重點評估模型在兩個關鍵領域的能力:遵循指示和提供準確、真實的信息。Grok-2在推理檢索到的內容和工具使用能力方面表現出顯著進步,例如正確識別缺失信息、通過事件序列進行推理以及丟棄不相關的帖子。

此外,xAI通過一系列學術基準對Grok-2模型進行了評估,這些基準包括推理、閱讀理解、數學、科學和編碼。該公司表示,"在研究生水平的科學知識、常識和數學競賽問題等領域的表現可與其他前沿模型相媲美。"

馬斯克正在將xAI與其收購的社交媒體"X"深度綁定——Grok-2和Grok-2mini將對X的增強搜索功能、深入了解帖子以及改進回覆功能提供支持,儘管此前xAI曾因使用X用戶數據進行訓練而遭致反對。

此次更新的一大亮點是,Grok-2模型可以在X上生成圖像,其生圖模型使用了近期大火的 Flux.1模型,但目前僅限於X上的Premium和Premium+用戶。

由於Grok的圖像生成功能沒有任何限制,已經有不少用戶藉此進行政治人物圖像創作,例如有用戶利用Grok-2生成美國首任總統華盛頓的圖片,該帖子還被馬斯克轉載。然而,OpenAI的ChatGPT會拒絕生成這類圖像,避免政治風險。

值得注意的是,Grok-2和Grok-2mini目前仍處於測試階段。該公司預計,本月晚些時候將通過其企業API向開發人員提供這兩種模型。即將推出的API建立在新的定制技術堆棧上,允許多區域推理部署,以實現全球低延遲訪問,同時提供增強安全功能,例如強制性多因素身份驗證、流量統計數據和高級計費分析。

在與OpenAI分道揚鑣後,馬斯克曾預測2029年將會實現通用人工智能,而他所創辦的xAI最終目標是讓消費者、企業甚至所有人都可以使用AI產品,並變成有用的工具。其希望通過AI去幫助人們解決複雜的科學和數學問題,並且"理解"宇宙。

xAI的動作也在不斷加速。該公司於2024年1月進行了首次融資,金額為1.35億美元;5月完成了60億美元的B輪融資,公司估值也從此前的180億美元飆升至250億美元,成為美國又一家AI獨角獸。

到了7月,馬斯克表示,xAI團隊已經開始在"孟菲斯超級集群"上進行訓練。該集群由10萬個液冷H100 GPU組成,目標是在今年12月前訓練出"按每項指標衡量都是世界上最強大的人工智能"。

他的野心還不止於此,曾透露xAI計劃打造一台超級計算機"算力的超級工廠",預計規模是市場上最強大競爭對手的四倍。

作為大模型的"後來者",馬斯克認為xAI可以在人工智能領域帶來新的突破和創新,同時強調競爭有利於推動整個行業的進步,避免形成一家公司在人工智能領域占主導地位的單極世界。

但從其最新發布的兩款模型來看,並未表現出超越行業的創新性,仍處於追趕者的角色。Grok-2要想在與OpenAI、谷歌等一眾科技公司的競爭中突圍,需拿出更強有力的產品才行。