马斯克推出GPT-4级AI:解数学题、生成图像引爆网络热潮

马斯克创立的 xAI 公司刚刚宣布推出其最新大型语言模型 Grok 2。

AI导师与模型在各种任务中进行互动,这些任务模拟了与Grok的真实互动场景。

在每次互动中,AI导师会根据我们制定的评估标准,从Grok生成的两个回应中选择出更佳的一个。

结果表明,相比Grok-2 mini以及Grok-1.5,Grok-2在处理检索到的内容时的推理能力,以及在使用工具方面的能力,如正确识别缺失信息、通过事件序列进行推理以及排除无关内容等方面,都有了显著的进步。

从基准测试结果来看,Grok-2的水准基本上能够碾压GPT-4 Turbo以及Claude 3 Opus,甚至在表现上也能与GPT-4o以及Llama 3-405B互有胜负。

不过,xAI所披露的基准测试结果也有点"小心思",比如虽说能和GPT-4o不分伯仲,但是用的却是GPT-4o以及GPT-4 Turbo 5月份的得分,所以很难不让人怀疑这是为了美化结果所打的时间差。

xAI团队成员Guodong Zhang则发文称:

有趣的是,与我们大多数其他公司和实验室不同,我们的发展速度非常快,以至于我们一直没有时间为每个模型发布编写正式的技术报告。

此外,xAI还特地指出,Grok-2在大规模多任务语言理解基准测试MMLU中,使用的是没有经过特定任务训练的Grok-2,更真实地反映了该模型的泛化能力和对新任务的适应性。简言之,哥们菜归菜,但胜在真实。

现在,Grok-2和Grok-2 mini都将逐步集成到X平台上,X Premium和Premium+用户均可体验这两款新模型。

官方说了,Grok-2具备文本和视觉理解能力,能实时整合X平台的信息。Grok-2 mini则主打小巧精致,在速度和答案质量之间实现了平衡。

与前代相比,Grok-2的最大变化莫过于能直接生成图片了。据xAI团队内部成员透露,生图的模型正是用到了近期大火的FLUX.1模型。

网友发现,Grok-2在图片生成次数方面存在限制,Premium用户预计能够生成约20 - 30张图像,而Premium+用户能够生成更多。

"9.8和9.11哪个大"的经典难题也没难倒Grok-2。甚至也能数清草莓(strawberry)里有多少个"r"的难题。

激动不已的马斯克接连转发了数条有关Grok 2的推文,为其大力站台宣传,并盛赞xAI团队进展速度非常出色。

不看广告,看疗效,Grok-2更像是一款意义大于实际的新模型,它的发布意味着整个AI行业开始迎来了新的类GPT-4级别模型,但或许并没有带来足够多的惊喜。

今年4月,马斯克在接受挪威主权基金负责人Nicolai Tangen采访时表示,Grok-2需要大约2万张H100来进行训练。

而上个月在给Grok-2的预热期间,马斯克也透露Grok-3用了10万块英伟达H100芯片进行训练,预计将于年底发布,届时将有望成为最强的AI大模型。

为此,马斯克甚至不惜调用特斯拉的芯片来给xAI团队加Buff,以至于惹得特斯拉投资者纷纷不满。

值得一提的是,在最近的X Space活动上,马斯克依然对AI的未来充满信心。