Nuevo Pipeline Estándar
Datos de preferencias humanas
El pipeline RLHF original se centraba en datos humanos, incluyendo datos para el ajuste fino de instrucciones y datos de preferencias para la finalización de tareas. Este tipo de datos son costosos y están estrictamente protegidos.
Ahora, el único aspecto que utiliza datos humanos son los datos de preferencias. Meta probablemente gastó entre 10 y 20 millones de dólares o más en datos de preferencias.
Un desafío para la comunidad abierta es determinar el grado de intervención humana en este tipo de datos y si pueden ser reemplazados por métodos como LLM-as-a-Judge o modelos de recompensa.
Ampliación de RLHF
Thomas Scialom, responsable de alineación de Llama 3, afirma que RLHF es mucho más escalable, menos costoso, más fácil de operar y generalmente produce un mejor rendimiento.
La industria utiliza el ajuste fino de instrucciones (IFT) solo como punto de partida para ampliar RLHF. Los datos SFT se centran principalmente en áreas específicas que los modelos anteriores no cubrían, y luego se amplía RLHF sobre esta base.
RLHF es un proceso iterativo donde el proceso de generación del modelo permite que continúe mejorando. Llama 3.1 realizó 6 rondas de entrenamiento con datos de preferencias, Llama 2 hizo 5, Nemotron 4, y hubo múltiples rondas de ajuste fino de instrucciones antes.
Realizar múltiples iteraciones puede ser principalmente por razones de viabilidad:
- Los datos se envían por lotes desde las empresas de anotación a los laboratorios
- Realizar múltiples rondas de entrenamiento a pequeña escala puede reducir el riesgo de entrega del producto final
Un enfoque similar de RLHF iterativo se remonta a la "IA constitucional" propuesta por Anthropic, pero la comunidad de código abierto no parece haber reproducido este resultado a gran escala.
Actualmente, el mundo académico está enfocado en el "entrenamiento DPO en línea", que es similar en dirección pero menos enfocado en los datos entre rondas. Una vez automatizado el proceso, el DPO en línea será el futuro.
La elección de algoritmos para la fase post-entrenamiento por parte de los equipos no debería ser tan rígida. DPO y PPO tienen sus pros y contras, el primero es más fácil de escalar, pero los métodos inspirados en PPO (como RL en línea) tienen un límite de rendimiento más alto.
Actualmente, estas soluciones se eligen principalmente por simplicidad, ya que estos equipos son relativamente nuevos y están construyendo sistemas modulares.
Datos sintéticos
Una parte importante del nuevo ciclo RLHF son los datos de instrucciones sintéticas que superan las capacidades humanas en la mayoría de las tareas.
Si se puede hacer que el modelo mejore un poco y genere mejores instrucciones, entonces se "reinicia" y se actualiza el punto de control.
Meta afirma explícitamente en su artículo que "utilizan el modelo de 405B para mejorar la calidad post-entrenamiento de nuestros modelos más pequeños"; Google lo logra destilando Gemini Flash, pero en realidad la mayoría de los modelos de vanguardia probablemente incluyen algunos pasos similares.
Se rumorea que OpenAI está entrenando su próxima generación de modelos con 50 billones de tokens, la mayoría de los cuales son datos sintéticos. El año pasado hubo rumores de que Anthropic tenía un "corpus de IA constitucional a escala de pre-entrenamiento", lo que ahora parece razonable.
Estas empresas de IA probablemente se dieron cuenta de la importancia de los datos sintéticos hace 12-18 meses, cuando dejaron de usar las salidas del modelo para el entrenamiento iterativo. Meta es diferente porque se beneficia de otros modelos abiertos mejores.
El post-entrenamiento actual muestra que los problemas de colapso del modelo debido a datos sintéticos han sido exagerados. El colapso del modelo solo ocurre en entornos artificiales donde se descartan los datos originales y solo se conservan los nuevos datos generados.