Nouveau pipeline standard
Données de préférence humaine
Le pipeline RLHF initial se concentrait sur les données humaines, y compris les données pour le fine-tuning des instructions et les données de préférence pour l'achèvement des tâches. Ces données sont coûteuses et strictement protégées.
Maintenant, le seul aspect utilisant des données humaines est les données de préférence. Meta a probablement dépensé 10 à 20 millions de dollars ou plus pour ces données.
Pour la communauté ouverte, un défi est de déterminer le degré d'intervention humaine dans ces données, et si elles peuvent être remplacées par des méthodes comme LLM-as-a-Judge ou des modèles de récompense.
Extension du RLHF
Thomas Scialom, responsable de l'alignement de Llama 3, affirme que le RLHF est beaucoup plus évolutif, moins coûteux, plus facile à manipuler et généralement plus performant.
L'industrie utilise le fine-tuning des instructions (IFT) uniquement comme point de départ pour étendre le RLHF. Les données SFT se concentrent principalement sur des domaines spécifiques non couverts par les modèles précédents, puis étendent le RLHF sur cette base.
Le RLHF est un processus itératif où le processus de génération du modèle lui permet de continuer à s'améliorer. Llama 3.1 a effectué 6 cycles de formation sur les données de préférence, Llama 2 en a fait 5, Nemotron 4, et il y a eu plusieurs cycles de fine-tuning des instructions auparavant.
Effectuer plusieurs cycles d'itération est probablement principalement une question de faisabilité :
- Les données sont transmises par lots des sociétés d'annotation aux laboratoires
- Effectuer plusieurs cycles de formation à petite échelle peut réduire le risque de livraison du produit final
Une approche RLHF itérative similaire remonte à "l'IA constitutionnelle" proposée par Anthropic, mais la communauté open source ne semble pas avoir reproduit ce résultat à grande échelle.
Actuellement, le monde académique se concentre sur "l'entraînement DPO en ligne", qui est similaire en direction mais moins focalisé sur les données entre les cycles. Une fois le processus automatisé, le DPO en ligne sera l'avenir.
Le choix des algorithmes pour la phase post-entraînement ne devrait pas être si rigide pour les différentes équipes. DPO et PPO ont chacun leurs avantages et inconvénients, le premier étant plus facile à étendre, mais les méthodes inspirées de PPO (comme le RL en ligne) ont un potentiel de performance plus élevé.
Ces solutions sont actuellement principalement choisies pour leur simplicité, car ces équipes sont encore relativement nouvelles et construisent des systèmes modulaires.
Données synthétiques
Une partie importante du nouveau cycle RLHF est les données d'instruction synthétiques qui surpassent les capacités humaines dans la plupart des tâches.
S'il est possible d'améliorer légèrement le modèle pour générer de meilleures instructions, alors on "recommence" et on met à jour le point de contrôle.
Meta déclare explicitement dans son article qu'ils "utilisent le modèle 405B pour améliorer la qualité post-entraînement de nos modèles plus petits"; Google y parvient en distillant Gemini Flash, mais en réalité, la plupart des modèles de pointe incluent probablement des étapes similaires.
Il est rapporté qu'OpenAI utilise 50 trillions de tokens de données pour entraîner sa prochaine génération de modèles, dont la majorité sont des données synthétiques. L'année dernière, des rumeurs suggéraient qu'Anthropic possédait un "corpus d'IA constitutionnelle à l'échelle du pré-entraînement", ce qui semble maintenant raisonnable.
Ces entreprises d'IA ont probablement réalisé l'importance des données synthétiques il y a 12 à 18 mois, lorsqu'elles ont cessé d'utiliser les sorties des modèles pour l'entraînement itératif. Meta est différent car il bénéficie d'autres modèles ouverts meilleurs.
Le post-entraînement actuel montre que les problèmes de collapse des modèles dus aux données synthétiques ont été exagérés. Le collapse du modèle ne se produit que dans des environnements artificiellement configurés où les données originales sont supprimées, ne laissant que les nouvelles données générées.