Novo Pipeline Padrão
Dados de Preferência Humana
O pipeline RLHF original focava em dados humanos, incluindo dados para fine-tuning de instruções e dados de preferência para conclusão de tarefas. Esse tipo de dados é caro e estritamente protegido.
Agora, o único aspecto que ainda usa dados humanos são os dados de preferência. A Meta provavelmente gastou entre 10-20 milhões de dólares ou mais em dados de preferência.
Para a comunidade aberta, um desafio é determinar o grau de intervenção humana nesses dados e se podem ser substituídos por métodos como LLM-as-a-Judge ou modelos de recompensa.
Expandindo o RLHF
Thomas Scialom, responsável pelo alinhamento do Llama 3, afirma que o RLHF é muito mais escalável, mais barato, mais fácil de operar e geralmente resulta em melhor desempenho.
A indústria usa o fine-tuning de instruções (IFT) apenas como ponto de partida para expandir o RLHF. Os dados SFT focam principalmente em áreas específicas não cobertas por modelos anteriores, e então o RLHF é expandido a partir disso.
RLHF é um processo iterativo, onde o processo de geração do modelo permite que ele continue melhorando. O Llama 3.1 passou por 6 rodadas de treinamento com dados de preferência, o Llama 2 por 5 rodadas, o Nemotron por 4 rodadas, e houve várias rodadas de fine-tuning de instruções antes disso.
Realizar múltiplas iterações pode ser principalmente por questões de viabilidade:
- Os dados são enviados em lotes das empresas de anotação para os laboratórios
- Realizar várias rodadas de treinamento em menor escala pode reduzir o risco na entrega do produto final
Uma abordagem iterativa similar de RLHF remonta à "IA Constitucional" proposta pela Anthropic, mas a comunidade de código aberto parece não ter reproduzido esse resultado em larga escala.
Atualmente, o mundo acadêmico está focado no "treinamento DPO online", que é similar em direção, mas menos focado nos dados entre as rodadas. Uma vez automatizado o processo, o DPO online será o futuro.
A escolha de algoritmos para a fase pós-treinamento não deveria ser tão rígida entre as equipes. DPO e PPO têm seus prós e contras, com o primeiro sendo mais fácil de escalar, mas métodos inspirados no PPO (como RL online) têm um teto de desempenho mais alto.
Atualmente, essas soluções são escolhidas principalmente por simplicidade, já que essas equipes ainda são relativamente novas e estão construindo sistemas modulares.
Dados Sintéticos
Uma parte importante do novo ciclo RLHF são os dados de instrução sintéticos que superam a capacidade humana na maioria das tarefas.
Se for possível fazer o modelo melhorar um pouco e gerar melhores instruções, então "reinicia-se" e atualiza-se o checkpoint.
A Meta afirma explicitamente em seu artigo que eles "usam o modelo de 405B para melhorar a qualidade do pós-treinamento de nossos modelos menores"; o Google faz isso destilando o Gemini Flash, mas na realidade, a maioria dos modelos de ponta provavelmente inclui algum passo similar.
Rumores sugerem que a OpenAI está treinando a próxima geração de modelos com 50 trilhões de tokens, a maioria dos quais são dados sintéticos. Houve rumores no ano passado de que a Anthropic tinha um "corpus de IA Constitucional em escala de pré-treinamento", o que agora parece plausível.
Essas empresas de IA provavelmente perceberam a importância dos dados sintéticos há 12-18 meses, quando pararam de usar saídas de modelos para treinamento iterativo. A Meta é diferente, pois se beneficia de outros modelos abertos melhores.
O pós-treinamento atual mostra que os problemas de colapso do modelo devido a dados sintéticos foram exagerados. O colapso do modelo só ocorre em ambientes artificialmente configurados, onde os dados originais são descartados e apenas os novos dados gerados são mantidos.