Identificando erros nas etapas de solução fornecidas.
Isso impede que os modelos simplesmente memorizem ou adivinhem respostas, e elimina preocupações sobre vazamentos de testes.
Usando o MR-Ben, a equipe de Jia avaliou muitos modelos de código aberto e fechado, incluindo GPT4-Turbo, Claude3.5-Sonnet, GLM4 e Qwen2-70B.
Todo o código e dados para este conjunto de dados foram disponibilizados como código aberto.
Perguntas Familiares, Tarefa Totalmente Nova
Os métodos de avaliação convencionais atuais para grandes modelos de linguagem usam testes humanos padronizados - questões de múltipla escolha e preenchimento de lacunas.
Essa abordagem tem padrões claros, métricas intuitivas e naturalmente gera resultados quantitativos dignos de discussão.
No entanto, os autores argumentam que este método não é "confiável", dado que os grandes modelos de linguagem modernos geralmente usam raciocínio em cadeia de pensamento para gerar respostas finais.
Com modelos pré-treinados tendo visto trilhões de tokens durante o pré-treinamento, ### é difícil determinar se um modelo avaliado já viu os dados relevantes e está simplesmente "memorizando" respostas corretas.
Além disso, como a avaliação verifica principalmente a resposta final, ### não está claro se o modelo escolheu a opção correta com base em compreensão e raciocínio adequados.
Embora a comunidade acadêmica atualize continuamente conjuntos de dados como GSM8K e MMLU, como introduzir versões multilíngues ou questões mais difíceis, eles ainda não conseguem escapar das limitações dos formatos de múltipla escolha ou preenchimento de lacunas.
Além disso, esses conjuntos de dados agora enfrentam sérios ### problemas de saturação, com grandes modelos de linguagem atingindo desempenho máximo e gradualmente perdendo poder discriminativo.
Para abordar isso, a equipe de Jia colaborou com MIT, Tsinghua, Cambridge e outras renomadas universidades, bem como com empresas chinesas líderes em anotação, para criar o MR-Ben - um conjunto de dados de avaliação focado em processos de raciocínio para resolução de problemas complexos.
O MR-Ben é baseado em questões de conjuntos de dados essenciais de pré-treinamento de grandes modelos como GSM8K, MMLU, LogiQA e MHPP. Ele aplica uma mudança de paradigma "estilo avaliação" para criar um novo conjunto de dados que é mais desafiador, mais discriminativo e reflete melhor as verdadeiras habilidades de raciocínio.
Em vez de encontrar novas questões ou modificar as existentes para testar a robustez do modelo, o MR-Ben transforma diretamente os modelos de "fazedores de testes" para "avaliadores", fazendo-os avaliar processos de solução existentes. Isso testa seu domínio dos pontos de conhecimento fazendo-os agir como professores!
Especificamente, a equipe de Jia organizou conjuntos de dados de avaliação convencionais como GSM8K, MMLU, LogiQA e MHPP em categorias como matemática/física/química/biologia, codificação, lógica e medicina, com diferentes níveis de dificuldade.
Para cada categoria e questão coletada, a equipe reuniu cuidadosamente processos de solução passo a passo correspondentes. Estes foram então anotados por profissionais treinados com mestrado e doutorado.
Durante a anotação, se o processo de solução está correto, onde ocorrem erros e as razões para os erros são todos meticulosamente identificados. Comparar os resultados da avaliação do modelo com a avaliação de especialistas humanos revela o domínio do modelo sobre os pontos de conhecimento.
De uma perspectiva de avaliação, o método proposto pelo MR-Ben requer que os modelos analisem cuidadosamente as premissas, suposições e lógica de cada etapa no processo de solução, e simulem o processo de raciocínio para determinar se a etapa atual leva à resposta correta.
Este estilo de avaliação "de correção" é muito mais desafiador do que simplesmente responder perguntas, mas evita efetivamente pontuações infladas devido à memorização. Estudantes que só conseguem memorizar respostas teriam dificuldade em serem avaliadores competentes.
GPT4-Turbo Tem o Melhor Desempenho
A equipe de Jia avaliou vários grandes modelos de linguagem bem conhecidos, com múltiplas versões de alguns modelos testadas.
Entre os modelos de código fechado, o GPT4-Turbo teve o melhor desempenho (embora tenha falhado em detectar erros de cálculo ao "avaliar"), liderando outros modelos na maioria das disciplinas tanto em configurações de demonstração (k=1) quanto sem demonstração (k=0).
O modelo GLM da Zhipu AI ficou em segundo lugar na classificação, superando a versão mais recente 3.5-Sonnet do Claude.
No entanto, existem diferenças significativas entre os modelos. Mesmo o melhor desempenho, GPT4-Turbo, marcou menos de 50 pontos no conjunto de dados MR-Ben, indicando que seu desempenho ainda está longe de estar saturado.
Além disso, alguns modelos de código aberto de alto desempenho alcançaram certos modelos comerciais.
A equipe do MR-Ben também descobriu alguns fenômenos interessantes durante seu trabalho:
-
Em cenários de baixos recursos, modelos pequenos mostraram notáveis pontos fortes. O Phi-3-mini se destacou entre os modelos pequenos na avaliação MR-Ben, até superando ou igualando modelos com centenas de bilhões de parâmetros, demonstrando a importância dos dados de ajuste fino.
-
Os cenários do MR-Ben envolvem análise lógica complexa e raciocínio passo a passo. No modo de poucos exemplos, contextos excessivamente longos na verdade confundiram os modelos, levando a uma diminuição do desempenho.
-
O MR-Ben avaliou numerosos experimentos de ablação de geração-reflexão-regeneração para examinar diferenças entre estratégias de prompt. Isso não teve efeito em modelos de baixo desempenho e pouco efeito em modelos de alto desempenho como o GPT4-Turbo. Para modelos de nível médio, melhorou ligeiramente o desempenho, pois às vezes corrigiam erros, mas também introduziam novos.
-
Ao dividir aproximadamente os assuntos de avaliação do MR-Ben em categorias baseadas em conhecimento, lógica, cálculo e algoritmo, diferentes modelos mostraram forças e fraquezas variadas entre os tipos de raciocínio.
A equipe de Jia carregou um método de avaliação com um clique no GitHub. Testar uma vez consome cerca de 12M tokens. Os desenvolvedores podem avaliar seus próprios modelos e enviar resultados, que a equipe do MR-Ben atualizará prontamente na classificação.