OpenAI publica una investigación de "alineación final" sobre superalineación: modelos grandes y pequeños compiten para mejorar la legibilidad de la salida

Ligera disminución en la precisión

Hacer que los modelos compitan entre sí

La investigación de OpenAI ha descubierto que el contenido generado por grandes modelos presenta ciertos equilibrios entre precisión y legibilidad:

Si se optimiza con el objetivo de la precisión propia, la legibilidad disminuye; si se optimiza para la legibilidad, la precisión propia se ve afectada.

Incluso en tareas simples de matemáticas de primaria, es fácil ver la diferencia, que OpenAI llama "impuesto de comprensibilidad".

Sin embargo, la capacidad de los humanos para entender el contenido generado por el modelo es un prerequisito importante para hacer juicios precisos, por lo que también tiene un impacto importante en la seguridad.

Incluso dejando esto de lado, la comprensibilidad del contenido determina directamente si el modelo puede proporcionar ayuda útil a los humanos.

Esta investigación se inspiró en el juego "probador-verificador" propuesto por académicos de la Universidad de Toronto en 2021, entrenando modelos a través de la competencia.

El probador tiene una gran capacidad de cálculo, puede realizar cálculos complejos y generar pruebas, y su tarea es tratar de convencer al verificador de que una afirmación es correcta.

El verificador solo puede realizar cálculos relativamente simples y necesita determinar si la prueba proporcionada por el probador es creíble a través de un proceso de interacción.

Por ejemplo, hay un problema matemático que requiere resolver la expresión de una función. El probador conoce esta expresión (pero no necesariamente es correcta) y quiere que el verificador crea que su respuesta es correcta.

El verificador conoce algunos valores de función correspondientes a variables independientes, y puede usar esta información para probar al probador, juzgando si conoce la función correcta según la precisión de sus respuestas.

De esta manera, OpenAI busca lograr un equilibrio entre precisión y legibilidad, intercambiando una pérdida de precisión relativamente pequeña por una mayor legibilidad.

En este proyecto, el equipo de OpenAI utilizó un conjunto de datos que incluía problemas matemáticos de primaria, soluciones y respuestas correctas.

Se seleccionaron modelos de la serie GPT-4 de diferentes escalas, con los más grandes actuando como probadores y los más pequeños como verificadores.

El conjunto de datos se dividió aleatoriamente en dos subconjuntos de igual tamaño, utilizados para entrenar al probador y al verificador respectivamente.

El probador recibió dos roles: útil (helpful) y engañoso (sneaky), generando soluciones correctas e incorrectas respectivamente.

Pero el punto en común es que ambos necesitan hacer que sus soluciones reciban una alta puntuación del verificador.

Estos dos roles no son fijos, el probador necesita ### alternar entre ellos, recibiendo una recompensa cuando el comportamiento es consistente con el rol que está interpretando.

El entrenamiento se realiza en múltiples rondas. En cada ronda, el equipo selecciona una muestra de soluciones correctas e incorrectas generadas por los dos probadores de la ronda anterior.

Estas muestras se utilizan como datos de entrenamiento para el verificador de la ronda actual, entrenando al verificador mediante aprendizaje supervisado para mejorar la precisión de sus juicios, haciendo que el verificador puntúe las soluciones correctas más alto que las incorrectas.

En este proceso, el probador engañoso impulsa constantemente al verificador a mejorar su precisión de juicio, mientras que el verificador hace que el contenido generado por el probador se ajuste más a las preferencias de puntuación, logrando un progreso mutuo a través de la competencia entre ambos.

Un prerequisito importante para obtener una puntuación alta es que el contenido generado pueda ser entendido por el verificador, por lo que al introducir preferencias humanas en el verificador, se puede mejorar la interpretabilidad del contenido de salida del modelo.

Equilibrio entre precisión y legibilidad

Finalmente, este método de entrenamiento competitivo logró un buen equilibrio entre alta precisión y alta comprensibilidad.

Los métodos de entrenamiento tradicionales solo se enfocan en la precisión del modelo en sí, resultando en que a medida que avanza el proceso de entrenamiento, la precisión de las respuestas mejora, pero los juicios humanos se vuelven cada vez menos precisos y más lentos.

Dado que el equipo de OpenAI introdujo preferencias humanas en el verificador, la precisión de los juicios del verificador está relacionada con los humanos en cierta medida.

Los resultados finales también confirman que los modelos entrenados de esta manera competitiva (probadores) permiten que los juicios humanos sean más rápidos y precisos a medida que aumentan las rondas de entrenamiento, sin una pérdida significativa en la precisión propia.

Comparando con el método de referencia, no es difícil ver que después de 5 rondas, la precisión del juicio humano superó el 82%, mientras que el método de referencia solo alcanzó menos del 75% después de 7000 pasos de entrenamiento;

En cuanto al tiempo, el juicio humano del método de referencia tomó casi 27 segundos, mientras que el nuevo método solo tomó poco más de 26 segundos.

Además, para el verificador, a medida que avanza el entrenamiento, su robustez también aumenta gradualmente, pudiendo identificar respuestas incorrectas con mayor precisión.

Además de evaluar la efectividad de este método de entrenamiento basado en juegos, el equipo de OpenAI hizo algunos otros descubrimientos durante el proceso de investigación:

El impacto del tamaño del verificador: demasiado pequeño conduce a un entrenamiento inestable, demasiado grande dificulta mejorar la robustez en múltiples rondas de entrenamiento, entre una milésima y una centésima del tamaño del probador funciona mejor.

Los errores en las soluciones maliciosas se vuelven cada vez más sutiles y localizados a medida que avanza el entrenamiento, lo que indica que el verificador impulsa al probador engañoso a generar muestras adversarias más cercanas a las soluciones reales.

A medida que aumentan las rondas de entrenamiento, la precisión de los evaluadores humanos en el probador engañoso disminuye.

Una cosa más

Dado que el equipo de superalineación que realizó esta investigación se ha disuelto y se ocupaba de cuestiones de seguridad, la estrategia de seguridad de OpenAI ha vuelto a recibir una amplia atención.

Sobre este tema, la CTO de OpenAI, Mira Murati, concedió una entrevista exclusiva a principios de este mes en la Universidad Johns Hopkins.

Durante la entrevista, Mira afirmó que OpenAI no ha "puesto el producto (prioridad) por delante de la seguridad" como acusó Jan Leike, el ex líder del equipo de superalineación.

También dijo que aunque el equipo de superalineación se ha disuelto, el trabajo de superalineación continúa.