Meta faz LLM evoluir por autoavaliação: Llama 7B supera GPT-4 após 4 rodadas de treinamento

AI como árbitro: Explorando as aplicações e o potencial da inteligência artificial em papéis de julgamento

Pesquisadores da Meta, UC Berkeley e NYU propuseram o método de modelos de linguagem de meta-recompensa, visando alcançar o "super-alinhamento" de modelos de IA. Este método permite que os modelos de IA desempenhem simultaneamente os papéis de ator, juiz e meta-juiz, melhorando o desempenho através de autoavaliação e aperfeiçoamento, sem depender de dados anotados por humanos.

Especificamente, o método de meta-recompensa inclui os seguintes passos:

  1. O ator gera uma resposta para um prompt dado
  2. O juiz avalia e pontua a resposta
  3. O meta-juiz avalia a qualidade da pontuação do juiz
  4. Com base nos resultados acima, o modelo é otimizado usando o método DPO

Para resolver o problema de preferência de comprimento, os pesquisadores introduziram um mecanismo de controle de comprimento. Eles também projetaram detalhadamente um método para criar dados de preferência do juiz, incluindo o uso de templates de prompt do meta-juiz e consideração de preferências de posição.

Nos experimentos de avaliação, os pesquisadores usaram o Llama-3-8B-Instruct como modelo semente, realizando um ajuste fino inicial no conjunto de dados EFT. A iteração de meta-recompensa usou 20.000 prompts gerados pelo Llama-2-70B-Chat, extraindo 5.000 a cada iteração, num total de 4 iterações.

Os resultados experimentais mostram que o método de meta-recompensa melhorou significativamente o desempenho do modelo. Por exemplo, a taxa de vitória no AlpacaEval 2 aumentou de 22,9% para 39,4%, superando o GPT-4; no Arena-Hard, aumentou de 20,6% para 29,1%.

Esta pesquisa demonstra ainda que os modelos de linguagem têm o potencial de melhorar o desempenho através do autoaperfeiçoamento, reduzindo a dependência da supervisão humana. Ela fornece novas ideias e métodos para alcançar o "super-alinhamento" de sistemas de IA.

Link do artigo 1 Link do artigo 2