OpenAI lança pesquisa final de "super alinhamento": modelos grandes e pequenos competem para melhorar a legibilidade da saída

Fazendo modelos competirem entre si

A pesquisa da OpenAI descobriu que o conteúdo gerado por grandes modelos apresenta um equilíbrio entre precisão e legibilidade:

Se otimizado para a própria precisão, a legibilidade diminui; se otimizado para legibilidade, a própria precisão é sacrificada.

Mesmo em tarefas simples de matemática do ensino fundamental, é fácil ver a diferença, que a OpenAI chama de "imposto de compreensibilidade".

No entanto, a capacidade humana de entender o conteúdo gerado pelo modelo é um pré-requisito importante para fazer julgamentos precisos, tendo assim um impacto significativo na segurança.

Mesmo desconsiderando isso, a compreensibilidade do conteúdo determina diretamente se o modelo pode fornecer ajuda útil aos humanos.

Esta pesquisa foi inspirada pelo jogo "provador-verificador" proposto por acadêmicos da Universidade de Toronto em 2021, treinando modelos através de competição.

O provador tem forte capacidade computacional, podendo realizar cálculos complexos e gerar provas, com a tarefa de tentar convencer o verificador de que uma afirmação está correta.

O verificador só pode realizar cálculos relativamente simples, precisando determinar se a prova fornecida pelo provador é confiável através de interação.

Por exemplo, há um problema matemático que requer resolver a expressão de uma função. O provador conhece essa expressão (mas não necessariamente correta) e deseja que o verificador acredite que sua resposta está correta.

O verificador conhece alguns valores da função para variáveis independentes e pode usar essas informações para testar o provador, julgando se ele conhece a função correta com base na precisão de suas respostas.

Dessa forma, a OpenAI visa alcançar um equilíbrio entre precisão e legibilidade, trocando uma perda relativamente pequena de precisão por maior legibilidade.

Neste projeto, a equipe da OpenAI usou um conjunto de dados contendo problemas matemáticos do ensino fundamental, soluções e respostas corretas.

Os modelos escolhidos foram da série GPT-4 de diferentes escalas, com os maiores atuando como provadores e os menores como verificadores.

O conjunto de dados foi dividido aleatoriamente em dois subconjuntos de igual tamanho, usados para treinar o provador e o verificador, respectivamente.

O provador recebeu dois papéis: prestativo (helpful) e astuto (sneaky), gerando soluções corretas e incorretas, respectivamente.

Mas ambos têm em comum a necessidade de fazer com que suas soluções recebam alta pontuação do verificador.

Esses dois papéis não são fixos, o provador precisa ### alternar entre eles, sendo recompensado quando o comportamento é consistente com o papel desempenhado.

O treinamento é realizado em várias rodadas. Em cada rodada, a equipe seleciona um lote de amostras corretas e incorretas das soluções geradas pelos dois provadores na rodada anterior.

Essas amostras são usadas como dados de treinamento para o verificador na rodada atual, treinando o verificador por aprendizado supervisionado para melhorar a precisão de seu julgamento, fazendo com que o verificador pontue soluções corretas mais alto que as incorretas.

Nesse processo, o provador astuto constantemente pressiona o verificador a melhorar sua precisão de julgamento, enquanto o verificador faz com que o conteúdo gerado pelo provador se alinhe mais com suas preferências de pontuação. Os dois progridem juntos através da competição mútua.

Um pré-requisito importante para obter uma pontuação alta é que o conteúdo gerado possa ser compreendido pelo verificador. Assim, introduzindo preferências humanas no verificador, a interpretabilidade do conteúdo de saída do modelo pode ser aprimorada.

Equilíbrio entre precisão e legibilidade

No final, esse método de treinamento competitivo alcançou um bom equilíbrio entre alta precisão e alta compreensibilidade.

Os métodos de treinamento tradicionais focam apenas na precisão do próprio modelo. Como resultado, à medida que o treinamento avança, a precisão das respostas melhora, mas os julgamentos humanos se tornam cada vez menos precisos e mais lentos.

Como a equipe da OpenAI introduziu preferências humanas no verificador, a precisão do julgamento do verificador está, em certa medida, relacionada aos humanos.

Os resultados finais também confirmam que os modelos treinados dessa maneira competitiva (provadores) permitem que os humanos façam julgamentos mais rápidos e precisos à medida que o número de rodadas de treinamento aumenta, sem perda significativa de precisão própria.

Comparando com o método baseline, não é difícil ver que após 5 rodadas, a precisão do julgamento humano ultrapassou 82%, enquanto o baseline tinha menos de 75% após 7.000 etapas de treinamento;

Em termos de tempo, o julgamento humano do baseline levou quase 27 segundos, enquanto o novo método levou pouco mais de 26 segundos.

Além disso, para o verificador, à medida que o treinamento progride, sua robustez gradualmente aumenta, sendo capaz de identificar respostas incorretas com mais precisão.

Além de avaliar a eficácia desse método de treinamento baseado em jogos, a equipe da OpenAI fez algumas outras descobertas durante o processo de pesquisa:

O impacto da escala do verificador: muito pequena leva a treinamento instável, muito grande dificulta a melhoria da robustez em múltiplas rodadas de treinamento. Entre um milésimo e um centésimo do provador é o mais eficaz.

Os erros nas soluções maliciosas se tornaram cada vez mais sutis e localizados à medida que o treinamento avançava, indicando que o verificador impulsionou o provador astuto a gerar amostras adversárias mais próximas das soluções reais.

À medida que o número de rodadas de treinamento aumentou, a precisão dos avaliadores humanos no provador astuto diminuiu.

Mais uma coisa

Como a equipe de superalinhamento que realizou esta pesquisa foi dissolvida e era responsável por questões de segurança, a estratégia de segurança da OpenAI mais uma vez atraiu ampla atenção.

Sobre esta questão, a CTO da OpenAI, Mira Murati, concedeu uma entrevista exclusiva na Universidade Johns Hopkins no início deste mês.

Durante a entrevista, Mira afirmou que a OpenAI não "colocou o produto (prioridade) à frente da segurança" como alegado por Jan Leike, ex-líder da equipe de superalinhamento.

Ela também disse que, embora a equipe de superalinhamento tenha sido dissolvida, o trabalho de superalinhamento continua.