一个代号为sus-column-r的匿名模型最近在大模型竞技场上表现出色,引发了不少猜测。昨天马斯克终于揭晓了谜底 - 这就是xAI即将推出的新模型Grok2。
Grok2在官方公布的对战数据中表现不俗,除了Google的Gemini 1.5 Pro外,对其他主流模型如GPT-4o和Claude 3.5 Sonnet都取得了较高胜率。在各项基准测试中,Grok2的能力也与顶级AI模型相当。
Grok2的一大升级是新增了图像功能,通过与FLUX.1合作实现。测试发现Grok2在图像生成方面尺度更大胆,能生成一些有争议的内容,如恶搞公众人物等。这可能会带来一些法律风险。
在实际使用中,Grok2在一些基础问题上表现不错,如小数比较、数数等常见AI易错题目。它的回答通常比较详细。不过在一些需要深入理解的问题上,GPT-4o仍有优势。
总的来说,Grok2确实展现出了明显的能力提升,尤其是在数学等领域。但它与其他顶级AI模型相比仍有差距,还需要进一步改进。这次发布显示了xAI在AI领域的野心和进展。