Gemini 1.5 Pro (0801) representa a primeira vez que o Google conquistou o primeiro lugar na arena lmsys. (Também em primeiro lugar em tarefas em chinês)
E desta vez foi um duplo campeão, além do ranking geral (o único com pontuação acima de 1300), também ficou em primeiro lugar no ### ranking visual.
Simon Tokumine, figura-chave da equipe Gemini, postou uma celebração dizendo:
(Este novo modelo) é o Gemini mais poderoso e inteligente que já criamos.
Um usuário do Reddit também chamou o modelo de "muito bom" e expressou esperança de que suas funcionalidades não sejam reduzidas.
Mais internautas expressaram empolgação, dizendo que a OpenAI finalmente está sendo desafiada e terá que lançar uma nova versão para contra-atacar!
A conta oficial do ChatGPT também apareceu insinuando algo.
Em meio a toda essa agitação, o responsável pelo produto Google AI Studio anunciou que o modelo entrou na ### fase de teste gratuito:
Pode ser usado gratuitamente no AI studio
### Internautas: O Google finalmente chegou!
Estritamente falando, o Gemini 1.5 Pro (0801) não é realmente um novo modelo.
Esta ### versão experimental é baseada no Gemini 1.5 Pro lançado pelo Google em fevereiro, e posteriormente a série 1.5 expandiu a janela de contexto para 2 milhões.
Com as atualizações do modelo, esse nome também está ficando cada vez mais longo, o que também provocou uma onda de críticas das pessoas.
Veja só, um funcionário da OpenAI, enquanto parabenizava, não deixou de fazer uma provocação:
Claro, embora o nome seja difícil de lembrar, o Gemini 1.5 Pro (0801) teve um desempenho impressionante nos testes oficiais da arena desta vez.
O mapa de calor da taxa de vitória geral mostra que ele superou o GPT-4o em 54% e o Claude 3.5 Sonnet em 59%.
No ### teste de referência de capacidade multilíngue, ficou em primeiro lugar em chinês, japonês, alemão e russo.
No entanto, em Coding e Hard Prompt Arena, ainda não consegue vencer adversários como Claude 3.5 Sonnet, GPT-4o e Llama 405B.
Este ponto também foi criticado pelos internautas, que traduzido seria:
A codificação é o mais importante, mas ele não se sai bem nisso.
No entanto, também houve pessoas promovendo as ### funcionalidades de imagem e extração de PDF do Gemini 1.5 Pro (0801).
Elvis, co-fundador da DAIR.AI, fez pessoalmente um teste completo no YouTube e concluiu:
Capacidade visual muito próxima do GPT-4o.
Além disso, algumas pessoas usaram o Gemini 1.5 Pro (0801) para resolver questões que o Claude 3.5 Sonet não respondeu bem anteriormente.
O resultado mostrou que ele não só teve um desempenho melhor, mas também superou seu colega Gemini 1.5 Flash.
No entanto, ele ainda não consegue lidar com alguns ### testes clássicos de senso comum, como "escrever dez frases terminando com maçã".
### Mais Uma Coisa
Enquanto isso, a série Gemma 2 do Google recebeu um novo ### modelo de 2 bilhões de parâmetros.
O Gemma 2 (2B) está ### pronto para uso e pode ser executado em GPUs T4 gratuitas no Google Colab.
No ranking da arena, ele ### superou todos os modelos GPT-3.5 e até mesmo o Mixtral-8x7b.
Diante das novas classificações recentemente obtidas pelo Google, a ### autoridade do ranking da arena foi mais uma vez questionada por todos.
Teknium (jogador renomado no campo de treinamento pós-ajuste fino), co-fundador da Nous Research, postou um lembrete:
Embora o Gemma 2 (2B) tenha pontuação mais alta que o GPT-3.5 Turbo na arena, ele está muito abaixo deste último no MMLU. Se as pessoas usarem o ranking da arena como o único indicador de desempenho do modelo, essa discrepância seria preocupante.
Bindu Reddy, CEO da Abacus.AI, foi ainda mais direto ao apelar:
Por favor, parem imediatamente de usar este ranking de avaliação humana! Claude 3.5 Sonnet é muito melhor que GPT-4o-mini. Da mesma forma, Gemini/Gemma não deveriam pontuar tão alto neste ranking.
Então, você acha que esse método de votação anônima humana ainda é confiável? (Bem-vindo para discutir na seção de comentários)