Aujourd'hui, une "crise du pétrole" qui balaie le monde de l'intelligence artificielle est apparue. Presque toutes les entreprises d'IA s'efforcent de trouver de nouvelles sources de corpus, mais même une grande quantité de données ne semble pas pouvoir satisfaire l'appétit des grands modèles d'IA. De plus, de plus en plus de plateformes de contenu prennent conscience de la valeur des données qu'elles détiennent et commencent à les garder jalousement. Par conséquent, les "données synthétiques" sont devenues une nouvelle direction d'exploration pour l'ensemble de l'industrie de l'IA.
Cependant, pendant une longue période, on ne savait pas si les données synthétiques pouvaient être utiles, jusqu'à ce que le Dr Thomas Scialom, chercheur en IA chez Meta, apporte récemment une réponse à cette question. Selon lui, le grand modèle open source Llama 3 de Meta n'a pas utilisé de réponses écrites par des humains pour son entraînement, mais s'est entièrement basé sur des données synthétiques générées par Llama 2.
En présentant les détails de l'entraînement de Llama 3, Thomas Scialom a mentionné l'utilisation de données synthétiques dans différents scénarios de grands modèles, tels que le retour d'exécution de code, la traduction de langages de programmation, la rétrotraduction de documents, les questions-réponses sur des textes longs, le résumé de longs documents, le raisonnement sur des bases de code, etc. Cela explique également comment le grand modèle Llama 3 de Meta, lancé au printemps de cette année, a pu atteindre une taille de plus de 400 milliards de paramètres et réaliser un volume de données d'entraînement sept fois supérieur à celui de Llama 2.
Les données synthétiques font généralement référence à de nouvelles données produites par des algorithmes imitant les caractéristiques des données du monde réel. Comment cette opération de "monter au ciel en marchant sur son pied droit avec son pied gauche" est-elle réalisée ? Deux articles publiés respectivement par les équipes de Meta et de Microsoft peuvent nous révéler le secret de l'entraînement des grands modèles à l'aide de données synthétiques. Meta appelle les grands modèles entraînés avec des données synthétiques "modèles de langage auto-récompensés", c'est-à-dire que le grand modèle lui-même génère des données d'entraînement, évalue la qualité de ces données, puis les utilise pour s'entraîner lui-même.
Le modèle de langage auto-récompensé est en fait une application de l'apprentissage par renforcement avec retour d'information de l'IA (RLAIF). L'approche spécifique de Meta consiste à pré-entraîner d'abord un modèle initial basé sur une petite quantité de données annotées manuellement, puis à laisser le modèle initial générer plusieurs réponses candidates basées sur des questions. Ensuite, en utilisant la méthode LLM-as-a-Judge proposée par le Dr Andrew Ng, le grand modèle de langage évalue ses propres réponses générées, et forme de nouvelles données d'entraînement en fonction de ces évaluations, afin de continuer à entraîner le modèle.
Dans ce processus, le plus important est de permettre au grand modèle de générer et d'évaluer de nouvelles instructions selon des exemples, puis de les ajouter à son propre ensemble d'entraînement. Comme le langage binaire utilisé par les ordinateurs est différent du langage humain, les chercheurs doivent convertir le langage humain en une forme compréhensible par l'ordinateur, c'est ce qu'on appelle l'"intégration de texte". Par exemple, l'équipe de recherche de Microsoft a défini une série de tâches d'intégration de texte et conçu des invites spécifiques pour ces tâches afin de guider les grands modèles de langage dans la génération de données spécifiques.
Les invites spécifiques créées par les chercheurs comprennent deux éléments clés : la question et le rôle, qui sont ensuite combinés. Par exemple, en combinant un chauffeur et un problème mathématique, on peut générer des questions de niveau primaire et secondaire, guidant le grand modèle de langage à synthétiser des données du point de vue correspondant. C'est le secret du modèle de langage auto-récompensé. Ensuite, les chercheurs n'ont plus qu'à nettoyer et formater les données générées, en supprimant les contenus répétitifs et en corrigeant les erreurs de format, pour s'assurer qu'elles répondent aux besoins de l'entraînement.
L'avantage des données synthétiques est qu'elles peuvent refléter les propriétés des données réelles sur le plan mathématique et physique, et comme elles ne nécessitent pas d'annotation manuelle, elles réduisent considérablement les erreurs humaines dues aux processus de collecte et de circulation des données, ainsi qu'aux incohérences des normes humaines. La question se pose alors : si les données synthétiques peuvent résoudre le problème de la rareté des données d'entraînement et les coûts élevés qui en découlent, pourquoi de nombreuses entreprises d'IA préfèrent-elles encore extraire ou acheter des données générées par l'homme ?
La raison la plus cruciale est que, malgré l'utilisation d'invites soigneusement conçues et d'un entraînement supervisé, les biais inhérents et les hallucinations des grands modèles de langage peuvent encore introduire du bruit dans l'ensemble de données. Les grands modèles de langage entraînés sur la base de données synthétiques erronées, hallucinées ou biaisées ne pourront pas se généraliser aux scénarios du monde réel. Les grands modèles de langage basés sur des données synthétiques doivent éviter d'être "pollués" par l'apprentissage automatique, et plus la proportion de données synthétiques dans les données d'entraînement est élevée, plus il est difficile d'améliorer la capacité de compréhension du langage naturel.
Par exemple, le professeur Percy Liang de Stanford a souligné que les données synthétiques manquent de précieuse "humanité", de sorte que les grands modèles entraînés sur des données synthétiques ne suffisent pas à atteindre l'AGI. Plus important encore, les données synthétiques peuvent être utilisées pour valider ou étendre des domaines déjà connus par l'homme, mais ne peuvent pas révéler des domaines qui n'existent pas dans l'ensemble de données initial. Leur limite est la limite de l'ensemble de données initial.
Par conséquent, il est théoriquement possible que Meta ait entraîné Llama 3 sur des données synthétiques générées par Llama 2, mais ils n'ont pas dit combien de main-d'œuvre et de temps cela a coûté. Bien que les données synthétiques soient effectivement moins chères que les données réelles, le coût d'élimination des données synthétiques non qualifiées reste inconnu.
Si les données synthétiques étaient vraiment moins chères que les données réelles à tous égards, même face aux problèmes d'hallucinations et d'éthique de l'IA, les grandes entreprises d'IA n'auraient aucune raison de continuer à se concentrer sur les données générées par l'homme.