GPT-4 encontra forte concorrente: Novo modelo do Google supera, ChatGPT pede calma

O modelo de linguagem de grande escala do Google conquistou o primeiro lugar em uma avaliação autoritativa pela primeira vez, marcando um grande avanço no campo da inteligência artificial. Esta conquista não só demonstra a força do Google na tecnologia de IA, mas também indica que o cenário competitivo dos grandes modelos pode estar mudando.

Gemini 1.5 Pro (0801) representa a primeira vez que o Google conquistou o primeiro lugar na arena lmsys. (Também em primeiro lugar em tarefas em chinês)

E desta vez foi um duplo campeão, além do ranking geral (o único com pontuação acima de 1300), também ficou em primeiro lugar no ### ranking visual.

Simon Tokumine, figura-chave da equipe Gemini, postou uma celebração dizendo:

(Este novo modelo) é o Gemini mais poderoso e inteligente que já criamos.

Um usuário do Reddit também chamou o modelo de "muito bom" e expressou esperança de que suas funcionalidades não sejam reduzidas.

Mais internautas expressaram empolgação, dizendo que a OpenAI finalmente está sendo desafiada e terá que lançar uma nova versão para contra-atacar!

A conta oficial do ChatGPT também apareceu insinuando algo.

Em meio a toda essa agitação, o responsável pelo produto Google AI Studio anunciou que o modelo entrou na ### fase de teste gratuito:

Pode ser usado gratuitamente no AI studio

### Internautas: O Google finalmente chegou!

Estritamente falando, o Gemini 1.5 Pro (0801) não é realmente um novo modelo.

Esta ### versão experimental é baseada no Gemini 1.5 Pro lançado pelo Google em fevereiro, e posteriormente a série 1.5 expandiu a janela de contexto para 2 milhões.

Com as atualizações do modelo, esse nome também está ficando cada vez mais longo, o que também provocou uma onda de críticas das pessoas.

Veja só, um funcionário da OpenAI, enquanto parabenizava, não deixou de fazer uma provocação:

Claro, embora o nome seja difícil de lembrar, o Gemini 1.5 Pro (0801) teve um desempenho impressionante nos testes oficiais da arena desta vez.

O mapa de calor da taxa de vitória geral mostra que ele superou o GPT-4o em 54% e o Claude 3.5 Sonnet em 59%.

No ### teste de referência de capacidade multilíngue, ficou em primeiro lugar em chinês, japonês, alemão e russo.

No entanto, em Coding e Hard Prompt Arena, ainda não consegue vencer adversários como Claude 3.5 Sonnet, GPT-4o e Llama 405B.

Este ponto também foi criticado pelos internautas, que traduzido seria:

A codificação é o mais importante, mas ele não se sai bem nisso.

No entanto, também houve pessoas promovendo as ### funcionalidades de imagem e extração de PDF do Gemini 1.5 Pro (0801).

Elvis, co-fundador da DAIR.AI, fez pessoalmente um teste completo no YouTube e concluiu:

Capacidade visual muito próxima do GPT-4o.

Além disso, algumas pessoas usaram o Gemini 1.5 Pro (0801) para resolver questões que o Claude 3.5 Sonet não respondeu bem anteriormente.

O resultado mostrou que ele não só teve um desempenho melhor, mas também superou seu colega Gemini 1.5 Flash.

No entanto, ele ainda não consegue lidar com alguns ### testes clássicos de senso comum, como "escrever dez frases terminando com maçã".

### Mais Uma Coisa

Enquanto isso, a série Gemma 2 do Google recebeu um novo ### modelo de 2 bilhões de parâmetros.

O Gemma 2 (2B) está ### pronto para uso e pode ser executado em GPUs T4 gratuitas no Google Colab.

No ranking da arena, ele ### superou todos os modelos GPT-3.5 e até mesmo o Mixtral-8x7b.

Diante das novas classificações recentemente obtidas pelo Google, a ### autoridade do ranking da arena foi mais uma vez questionada por todos.

Teknium (jogador renomado no campo de treinamento pós-ajuste fino), co-fundador da Nous Research, postou um lembrete:

Embora o Gemma 2 (2B) tenha pontuação mais alta que o GPT-3.5 Turbo na arena, ele está muito abaixo deste último no MMLU. Se as pessoas usarem o ranking da arena como o único indicador de desempenho do modelo, essa discrepância seria preocupante.

Bindu Reddy, CEO da Abacus.AI, foi ainda mais direto ao apelar:

Por favor, parem imediatamente de usar este ranking de avaliação humana! Claude 3.5 Sonnet é muito melhor que GPT-4o-mini. Da mesma forma, Gemini/Gemma não deveriam pontuar tão alto neste ranking.

Então, você acha que esse método de votação anônima humana ainda é confiável? (Bem-vindo para discutir na seção de comentários)

Links de referência:

[1]https://x.com/lmsysorg/status/1819048821294547441