Atualmente, uma "crise do petróleo" está varrendo o círculo da inteligência artificial, com quase todas as empresas de IA buscando desesperadamente novas fontes de dados linguísticos, mas parece que nenhuma quantidade de dados é suficiente para satisfazer o apetite dos grandes modelos de IA. Além disso, cada vez mais plataformas de conteúdo estão percebendo o valor dos dados que possuem e começaram a guardá-los para si. Como resultado, os "dados sintéticos" também se tornaram uma nova direção de exploração para toda a indústria de IA.
No entanto, por um longo período, não se sabia se os dados sintéticos seriam úteis, até que recentemente o Dr. Thomas Scialom, pesquisador de IA da Meta, deu a resposta a essa questão. Segundo ele, o modelo de código aberto Llama 3 da Meta não dependeu de nenhuma resposta escrita por humanos durante o treinamento, mas foi completamente baseado em dados sintéticos gerados pelo Llama 2.
Ao introduzir os detalhes do treinamento do Llama 3, Thomas Scialom mencionou a aplicação de dados sintéticos em diferentes cenários de grandes modelos, como feedback de execução de código, tradução de linguagens de programação, tradução reversa de documentos, perguntas e respostas de texto longo, resumo de documentos longos e raciocínio de repositórios de código, todos usando extensivamente dados sintéticos. Isso também explica como o modelo Llama 3 da Meta, lançado na primavera deste ano, conseguiu ultrapassar 400 bilhões de parâmetros e alcançar sete vezes o volume de dados de treinamento do Llama 2.
Dados sintéticos geralmente se referem a novos dados produzidos por algoritmos que imitam as características dos dados do mundo real. Então, como essa operação de "pisar com o pé esquerdo no pé direito para subir ao céu" é realizada? Dois artigos publicados pelas equipes relevantes da Meta e da Microsoft podem revelar o segredo de treinar grandes modelos usando dados sintéticos. Entre eles, a Meta chama os grandes modelos treinados com dados sintéticos de "modelos de linguagem auto-recompensados", o que significa que o próprio modelo gera dados de treinamento, avalia a qualidade desses dados e então os usa para treinar a si mesmo.
Os modelos de linguagem auto-recompensados são, na verdade, uma aplicação da chamada Aprendizagem por Reforço com Feedback de IA (RLAIF). A operação específica da Meta é primeiro pré-treinar um modelo inicial com base em uma pequena quantidade de dados anotados manualmente, e então deixar o modelo inicial gerar múltiplas respostas candidatas com base nas perguntas, usando o método LLM-as-a-Judge proposto pelo Dr. Andrew Ng, permitindo que o modelo de linguagem grande pontue suas próprias respostas geradas e forme novos dados de treinamento com base nessas pontuações, continuando assim o treinamento do modelo.
Neste processo, o mais importante é permitir que o grande modelo gere e avalie novas instruções de acordo com exemplos e as adicione ao seu próprio conjunto de treinamento. Como a linguagem binária usada pelos computadores é diferente da linguagem humana, os pesquisadores precisam converter a linguagem humana em uma forma que os computadores possam entender, o chamado "embedding de texto". Por exemplo, a equipe de pesquisa da Microsoft definiu uma série de tarefas de embedding de texto e projetou prompts específicos para essas tarefas para orientar o modelo de linguagem grande a gerar dados específicos.
Os prompts específicos criados pelos pesquisadores incluirão dois elementos-chave: pergunta e papel, que são então combinados. Por exemplo, combinar motorista e problema matemático pode gerar questões de nível primário e secundário, orientando o modelo de linguagem grande a sintetizar dados a partir da perspectiva correspondente. Este é o segredo dos modelos de linguagem auto-recompensados. Em seguida, os pesquisadores só precisam limpar e formatar os dados gerados, removendo conteúdo duplicado e corrigindo erros de formato para garantir que atendam às necessidades de treinamento.
A vantagem dos dados sintéticos é que eles podem refletir as propriedades dos dados reais em termos matemáticos e físicos, e como não requerem anotação manual, também reduzem significativamente os erros humanos causados pelo processo de coleta e transferência de dados e pela inconsistência dos padrões humanos. Então, a questão é: se os dados sintéticos podem resolver o problema da escassez de dados de treinamento e os altos custos derivados, por que muitas empresas de IA ainda preferem extrair ou comprar dados gerados por humanos?
A razão mais crucial é que, embora prompts cuidadosamente projetados e treinamento supervisionado sejam usados, os vieses e alucinações inerentes aos grandes modelos de linguagem ainda podem introduzir ruído no conjunto de dados, e os grandes modelos de linguagem treinados com base em dados sintéticos errôneos, alucinados ou tendenciosos não serão capazes de generalizar para cenários do mundo real. Os grandes modelos de linguagem baseados em dados sintéticos precisam evitar ser "poluídos" pelo aprendizado de máquina, e quanto maior a proporção de dados sintéticos nos dados de treinamento, mais difícil será melhorar a capacidade de compreensão da linguagem natural.
Por exemplo, o professor de Stanford Percy Liang apontou que os dados sintéticos carecem de preciosa "humanidade", de modo que os grandes modelos treinados com dados sintéticos não são suficientes para alcançar a AGI. Mais importante ainda, os dados sintéticos podem ser usados para verificar ou expandir áreas que os humanos já conhecem, mas não podem revelar áreas que não existem no conjunto de dados inicial; seu limite é o limite do conjunto de dados inicial.
Portanto, é teoricamente possível que a Meta tenha treinado o Llama 3 com dados sintéticos gerados pelo Llama 2, mas eles não disseram a todos quanto esforço humano e tempo isso levou. Embora os dados sintéticos sejam de fato mais baratos que os dados reais, ainda não se sabe quanto custa eliminar os dados sintéticos inadequados.
Se os dados sintéticos fossem realmente mais baratos que os dados reais em todos os aspectos, mesmo com os problemas de alucinações e ética da IA, não haveria razão para as grandes empresas de IA continuarem focadas nos dados gerados por humanos.