OpenAI publie une recherche sur l'alignement ultime : les grands et petits modèles s'affrontent pour améliorer la lisibilité des résultats

Faire jouer les modèles les uns contre les autres

Les recherches d'OpenAI ont révélé qu'il existe un compromis entre l'exactitude et la lisibilité du contenu généré par les grands modèles :

Si l'optimisation vise la précision, la lisibilité diminue ; si elle vise la lisibilité, la précision en souffre.

Même pour des tâches simples de niveau mathématique primaire, la différence est facilement perceptible, ce qu'OpenAI appelle la "taxe de compréhensibilité".

Cependant, la compréhension humaine du contenu généré par le modèle est une condition préalable importante pour porter un jugement précis, ce qui a donc un impact important sur la sécurité.

Même sans tenir compte de cela, la compréhensibilité du contenu détermine directement si le modèle peut apporter une aide utile aux humains.

Cette recherche s'inspire du jeu "prouveur-vérificateur" proposé par des chercheurs de l'Université de Toronto en 2021, qui entraîne les modèles par le biais de jeux.

Le prouveur possède de puissantes capacités de calcul, peut effectuer des calculs complexes et générer des preuves, sa tâche étant d'essayer de convaincre le vérificateur qu'une affirmation est correcte.

Le vérificateur ne peut effectuer que des calculs relativement simples et doit déterminer si la preuve fournie par le prouveur est fiable par le biais d'un processus interactif.

Par exemple, pour un problème mathématique nécessitant de résoudre l'expression d'une fonction, le prouveur connaît cette expression (mais pas nécessairement correctement) et souhaite que le vérificateur croie que sa réponse est correcte.

Le vérificateur connaît certaines valeurs de fonction correspondant à des variables indépendantes et peut utiliser ces informations pour tester le prouveur, jugeant s'il connaît la fonction correcte en fonction de l'exactitude de ses réponses.

De cette manière, OpenAI vise à atteindre un équilibre entre précision et lisibilité, échangeant une perte de précision relativement faible contre une meilleure lisibilité.

Dans ce projet, l'équipe d'OpenAI a utilisé un ensemble de données contenant des problèmes mathématiques de niveau primaire, des solutions et des réponses correctes.

Les modèles choisis étaient différentes échelles de la série GPT-4, les plus grands servant de prouveurs et les plus petits de vérificateurs.

L'ensemble de données a été divisé aléatoirement en deux sous-ensembles de taille égale, utilisés respectivement pour l'entraînement des prouveurs et des vérificateurs.

Les prouveurs ont été assignés deux rôles distincts : serviable (helpful) et sournois (sneaky), générant respectivement des solutions correctes et incorrectes.

Leur point commun est qu'ils doivent tous deux faire en sorte que leurs solutions obtiennent un score élevé du vérificateur.

Ces deux rôles ne sont pas fixes, les prouveurs doivent ### les jouer à tour de rôle, recevant une récompense lorsque leur comportement correspond au rôle joué.

L'entraînement se déroule en plusieurs tours, à chaque tour l'équipe sélectionne un échantillon de solutions correctes et incorrectes générées par les deux prouveurs au tour précédent.

Ces échantillons servent de données d'entraînement pour le vérificateur du tour actuel, qui est entraîné par apprentissage supervisé pour améliorer la précision de son jugement, attribuant des scores plus élevés aux solutions correctes qu'aux solutions incorrectes.

Dans ce processus, le prouveur sournois pousse constamment le vérificateur à améliorer la précision de son jugement, tandis que le vérificateur amène les prouveurs à générer du contenu plus conforme à ses préférences de notation, les deux progressant ensemble par le jeu mutuel.

Une condition préalable importante pour obtenir un score élevé est que le contenu généré puisse être compris par le vérificateur, ainsi, en introduisant les préférences humaines dans le vérificateur, on peut améliorer l'explicabilité du contenu produit par le modèle.

Équilibre entre précision et lisibilité

Finalement, cette méthode d'entraînement par jeu a permis d'atteindre un bon équilibre entre haute précision et haute compréhensibilité.

Les méthodes d'entraînement traditionnelles ne se concentrent que sur la précision du modèle lui-même, ce qui a pour résultat qu'au fur et à mesure de l'entraînement, la précision des réponses s'améliore, mais les jugements humains deviennent de moins en moins précis et plus lents.

Comme l'équipe d'OpenAI a introduit les préférences humaines dans le vérificateur, la précision du jugement du vérificateur est dans une certaine mesure liée à l'humain.

Les résultats finaux confirment également que les modèles entraînés de cette manière par le jeu (prouveurs) permettent aux humains de porter des jugements plus rapides et plus précis au fil des tours d'entraînement, sans perte significative de leur propre précision.

En comparaison avec la méthode de référence, on constate qu'après 5 tours, la précision du jugement humain dépasse 82%, alors que la référence n'atteint pas 75% après 7000 étapes d'entraînement ;

En termes de temps, le jugement humain pour la référence prend près de 27 secondes, contre à peine plus de 26 secondes pour la nouvelle méthode.

De plus, pour le vérificateur, sa robustesse s'améliore progressivement au fil de l'entraînement, lui permettant d'identifier plus précisément les réponses incorrectes.

Outre l'évaluation de l'efficacité de cette méthode d'entraînement par jeu, l'équipe d'OpenAI a fait d'autres découvertes au cours de ses recherches :

L'impact de la taille du vérificateur : trop petit entraîne une instabilité de l'entraînement, trop grand rend difficile l'amélioration de la robustesse sur plusieurs tours d'entraînement, un millième à un centième de la taille du prouveur donne les meilleurs résultats.

Les erreurs dans les solutions malveillantes deviennent de plus en plus subtiles et localisées au fil de l'entraînement, indiquant que le vérificateur pousse le prouveur sournois à générer des échantillons adverses plus proches des vraies solutions.

Au fil des tours d'entraînement, la précision des évaluateurs humains sur le prouveur sournois diminue quelque peu.

Une chose de plus

Comme l'équipe de super-alignement qui a mené cette recherche a été dissoute et qu'elle était responsable des questions de sécurité, la stratégie de sécurité d'OpenAI a de nouveau fait l'objet d'une large attention.

Sur cette question, la CTO d'OpenAI Mira Murati a accordé une interview exclusive à l'Université Johns Hopkins au début de ce mois.

Au cours de celle-ci, Mira a déclaré qu'OpenAI n'avait pas "mis le produit (priorité) avant la sécurité" comme l'avait accusé Jan Leike, l'ancien responsable de l'équipe de super-alignement.

Elle a également déclaré que bien que l'équipe de super-alignement ait été dissoute, le travail de super-alignement se poursuit.