Tutores de IA e modelos interagem em várias tarefas que simulam cenários reais de interação com o Grok.
Em cada interação, o tutor de IA seleciona a melhor das duas respostas geradas pelo Grok, com base nos critérios de avaliação que estabelecemos.
Os resultados mostram que, em comparação com o Grok-2 mini e o Grok-1.5, o Grok-2 fez progressos significativos na capacidade de raciocínio ao lidar com conteúdo recuperado, bem como na capacidade de usar ferramentas, como identificar corretamente informações ausentes, raciocinar através de sequências de eventos e excluir conteúdo irrelevante.
Com base nos resultados dos testes de referência, o nível do Grok-2 é basicamente capaz de superar o GPT-4 Turbo e o Claude 3 Opus, e até mesmo competir com o GPT-4o e o Llama 3-405B em termos de desempenho.
No entanto, os resultados dos testes de referência divulgados pela xAI também têm um pouco de "truque", por exemplo, embora afirmem estar à par com o GPT-4o, eles usaram as pontuações de maio do GPT-4o e do GPT-4 Turbo, então é difícil não suspeitar que isso seja uma diferença de tempo para embelezar os resultados.
Guodong Zhang, membro da equipe xAI, postou:
Curiosamente, ao contrário da maioria das outras empresas e laboratórios, nosso ritmo de desenvolvimento é tão rápido que nunca tivemos tempo para escrever relatórios técnicos formais para cada modelo.
Além disso, a xAI apontou especificamente que no teste de referência de compreensão de linguagem em larga escala e multitarefa MMLU, eles usaram o Grok-2 sem treinamento específico para tarefas, refletindo mais verdadeiramente a capacidade de generalização do modelo e sua adaptabilidade a novas tarefas. Em resumo, o cara pode ser fraco, mas é autêntico.
Agora, o Grok-2 e o Grok-2 mini serão gradualmente integrados à plataforma X, e os usuários Premium e Premium+ poderão experimentar esses dois novos modelos.
Oficialmente, foi dito que o Grok-2 tem capacidades de compreensão de texto e visual, e pode integrar informações da plataforma X em tempo real. O Grok-2 mini, por outro lado, é compacto e refinado, alcançando um equilíbrio entre velocidade e qualidade de resposta.
Comparado à geração anterior, a maior mudança no Grok-2 é que ele agora pode gerar imagens diretamente. De acordo com membros internos da equipe xAI, o modelo usado para geração de imagens é o recentemente popular modelo FLUX.1.
Os usuários descobriram que há um limite no número de imagens que o Grok-2 pode gerar, com usuários Premium podendo gerar cerca de 20-30 imagens, enquanto usuários Premium+ podem gerar mais.
O clássico problema de "qual é maior, 9.8 ou 9.11" também não confundiu o Grok-2. Ele até pode contar quantos "r" há em "strawberry".
Musk, entusiasmado, retweetou várias postagens sobre o Grok 2, promovendo-o fortemente, e elogiou o excelente progresso da equipe xAI.
Sem olhar para a publicidade, mas para a eficácia, o Grok-2 parece mais um novo modelo cujo significado é maior que sua praticidade real. Seu lançamento significa que toda a indústria de IA está começando a receber novos modelos de nível GPT-4, mas talvez não tenha trazido surpresas suficientes.
Em abril deste ano, em uma entrevista com Nicolai Tangen, chefe do fundo soberano da Noruega, Musk afirmou que o Grok-2 precisaria de cerca de 20.000 H100 para treinamento.
E no mês passado, durante o período de aquecimento para o Grok-2, Musk também revelou que o Grok-3 usou 100.000 chips NVIDIA H100 para treinamento, com lançamento previsto para o final do ano, quando se espera que se torne o modelo de IA mais poderoso.
Para isso, Musk até se dispôs a usar chips da Tesla para dar um boost à equipe xAI, o que desagradou muitos investidores da Tesla.
Vale mencionar que em um recente evento X Space, Musk ainda estava cheio de confiança sobre o futuro da IA.