Los investigadores de Meta, UC Berkeley y NYU han propuesto un método de modelo de lenguaje de meta-recompensa, con el objetivo de lograr una "superalineación" de los modelos de IA. Este método permite que los modelos de IA desempeñen simultáneamente los roles de actor, juez y meta-juez, mejorando el rendimiento a través de la autoevaluación y el perfeccionamiento, sin depender de datos etiquetados por humanos.
Específicamente, el método de meta-recompensa incluye los siguientes pasos:
- El actor genera una respuesta a un estímulo dado
- El juez evalúa y puntúa la respuesta
- El meta-juez evalúa la calidad de la puntuación del juez
- Basándose en estos resultados, se optimiza el modelo utilizando el método DPO
Para abordar el problema de la preferencia de longitud, los investigadores introdujeron un mecanismo de control de longitud. También diseñaron detalladamente un método para crear datos de preferencia del juez, incluyendo el uso de plantillas de estímulos para el meta-juez y la consideración de preferencias de posición.
En los experimentos de evaluación, los investigadores utilizaron Llama-3-8B-Instruct como modelo semilla, realizando un ajuste fino inicial en el conjunto de datos EFT. La iteración de meta-recompensa utilizó 20,000 estímulos generados por Llama-2-70B-Chat, extrayendo 5,000 en cada iteración, para un total de 4 iteraciones.
Los resultados experimentales muestran que el método de meta-recompensa mejoró significativamente el rendimiento del modelo. Por ejemplo, la tasa de victoria en AlpacaEval 2 aumentó del 22.9% al 39.4%, superando a GPT-4; en Arena-Hard, aumentó del 20.6% al 29.1%.
Esta investigación demuestra además que los modelos de lenguaje tienen el potencial de mejorar su rendimiento a través del autoperfeccionamiento, reduciendo la dependencia de la supervisión humana. Proporciona nuevas ideas y métodos para lograr la "superalineación" de los sistemas de IA.