Des chercheurs de Meta, UC Berkeley et NYU ont proposé une méthode de modèle de langage à méta-récompense visant à réaliser un "super-alignement" des modèles d'IA. Cette méthode permet aux modèles d'IA de jouer simultanément les rôles d'acteur, de juge et de méta-juge, améliorant leurs performances par auto-évaluation et amélioration, sans dépendre des données annotées par l'homme.
Plus précisément, la méthode de méta-récompense comprend les étapes suivantes :
- L'acteur génère une réponse à une invite donnée
- Le juge évalue et note la réponse
- Le méta-juge évalue la qualité de la notation du juge
- Sur la base des résultats ci-dessus, la méthode DPO est utilisée pour optimiser le modèle
Pour résoudre le problème de préférence de longueur, les chercheurs ont introduit un mécanisme de contrôle de la longueur. Ils ont également conçu en détail une méthode de création de données de préférence du juge, comprenant l'utilisation de modèles de prompts méta-juge et la prise en compte des préférences de position.
Dans les expériences d'évaluation, les chercheurs ont utilisé Llama-3-8B-Instruct comme modèle de base, avec un réglage fin initial sur le jeu de données EFT. L'itération de méta-récompense a utilisé 20 000 prompts générés par Llama-2-70B-Chat, en extrayant 5 000 à chaque itération, pour un total de 4 itérations.
Les résultats expérimentaux montrent que la méthode de méta-récompense a considérablement amélioré les performances du modèle. Par exemple, le taux de victoire sur AlpacaEval 2 est passé de 22,9% à 39,4%, dépassant GPT-4 ; sur Arena-Hard, il est passé de 20,6% à 29,1%.
Cette recherche démontre davantage que les modèles de langage ont le potentiel d'améliorer leurs performances par auto-amélioration, réduisant la dépendance à la supervision humaine. Elle offre de nouvelles idées et méthodes pour réaliser un "super-alignement" des systèmes d'IA.