Pesquisadores da Meta, UC Berkeley e NYU propuseram o método de modelos de linguagem de meta-recompensa, visando alcançar o "super-alinhamento" de modelos de IA. Este método permite que os modelos de IA desempenhem simultaneamente os papéis de ator, juiz e meta-juiz, melhorando o desempenho através de autoavaliação e aperfeiçoamento, sem depender de dados anotados por humanos.
Especificamente, o método de meta-recompensa inclui os seguintes passos:
- O ator gera uma resposta para um prompt dado
- O juiz avalia e pontua a resposta
- O meta-juiz avalia a qualidade da pontuação do juiz
- Com base nos resultados acima, o modelo é otimizado usando o método DPO
Para resolver o problema de preferência de comprimento, os pesquisadores introduziram um mecanismo de controle de comprimento. Eles também projetaram detalhadamente um método para criar dados de preferência do juiz, incluindo o uso de templates de prompt do meta-juiz e consideração de preferências de posição.
Nos experimentos de avaliação, os pesquisadores usaram o Llama-3-8B-Instruct como modelo semente, realizando um ajuste fino inicial no conjunto de dados EFT. A iteração de meta-recompensa usou 20.000 prompts gerados pelo Llama-2-70B-Chat, extraindo 5.000 a cada iteração, num total de 4 iterações.
Os resultados experimentais mostram que o método de meta-recompensa melhorou significativamente o desempenho do modelo. Por exemplo, a taxa de vitória no AlpacaEval 2 aumentou de 22,9% para 39,4%, superando o GPT-4; no Arena-Hard, aumentou de 20,6% para 29,1%.
Esta pesquisa demonstra ainda que os modelos de linguagem têm o potencial de melhorar o desempenho através do autoaperfeiçoamento, reduzindo a dependência da supervisão humana. Ela fornece novas ideias e métodos para alcançar o "super-alinhamento" de sistemas de IA.