Quand les « données synthétiques » rencontrent les agents intelligents
Au cours de l'année écoulée, nous avons assisté à l'essor des agents intelligents. Ces agents peuvent générer des données de haute qualité et, grâce à la réflexion et à l'itération, leurs capacités surpassent celles des grands modèles de base sous-jacents.
Dans ce processus, les agents peuvent examiner les solutions, s'autocritiquer et améliorer leurs réponses. Ils peuvent même utiliser des outils comme les API de recherche, les calculatrices et les interpréteurs de code pour étendre les capacités des grands modèles.
De plus, les multi-agents offrent d'autres avantages, comme la simulation de scénarios et la génération simultanée de nouvelles invites et réponses. Ils peuvent également automatiser les flux de travail de génération de données, réduisant ou éliminant le besoin d'intervention humaine pour certaines tâches.
Dans l'article, les auteurs introduisent le concept d'« enseignement génératif ». Il s'agit d'utiliser des données synthétiques pour l'entraînement ultérieur, en particulier en créant des données avec des modèles puissants pour enseigner de nouvelles compétences ou comportements à un autre modèle.
AgentInstruct est une solution d'agent pour l'enseignement génératif.
En résumé, AgentInstruct peut créer :
- Des données de haute qualité : en utilisant des modèles puissants comme GPT-4, combinés à des outils de recherche et d'interprétation de code.
- Des données diversifiées : AgentInstruct génère simultanément des invites et des réponses. Il utilise des multi-agents (équipés de LLM puissants, d'outils et de processus de réflexion) et une taxonomie de plus de 100 sous-catégories pour créer des invites et des réponses diversifiées et de haute qualité.
- De grandes quantités de données : AgentInstruct peut fonctionner de manière autonome et appliquer des processus de validation et de filtrage des données. Il n'a pas besoin d'invites initiales, mais utilise des documents bruts comme point de départ.
Enseignement génératif : AgentInstruct
Comment créer des données massives ? Comment garantir la diversité des données générées ? Comment générer des données complexes ou subtiles ?
Pour répondre à ces défis, les chercheurs ont décrit une approche structurée :
Plus précisément, AgentInstruct définit trois processus de génération automatisés différents :
Processus de transformation de contenu : convertit les graines brutes en une représentation intermédiaire, simplifiant la création d'instructions pour des objectifs spécifiques.
Processus de génération d'instructions initiales : composé de plusieurs agents, prend en entrée les graines transformées du processus de transformation de contenu et génère un ensemble d'instructions diversifiées.
Processus d'amélioration des instructions : prend en entrée les instructions du processus d'instructions initiales et améliore itérativement leur complexité et leur qualité.
Ensuite, les chercheurs ont implémenté ces processus pour 17 compétences différentes, chacune avec plusieurs sous-catégories. Ces compétences incluent la compréhension de lecture, les questions-réponses, le codage, la génération augmentée par la recherche, l'écriture créative, l'utilisation d'outils/API et le contrôle du web.
Résultats expérimentaux
Comme mentionné au début, les chercheurs ont utilisé 25,8 millions de paires d'instructions pour affiner le modèle Mistral-7b-v0.1, obtenant ainsi Orca-3.
Alors, quelles sont les performances d'Orca-3 après avoir été entraîné avec les données AgentInstruct ?
L'objectif d'AgentInstruct est de synthétiser un grand ensemble de données diversifié, comprenant des données de différents niveaux de difficulté. Sur cet ensemble de données, les modèles de référence comme Orca-2.5, Mistral-Instruct-7b et ChatGPT obtiennent des scores bien inférieurs à 10, montrant leur infériorité par rapport à GPT-4 (désigné comme référence avec un score de 10).
En moyenne, y compris Orca-3 après chaque cycle d'entraînement, l'introduction des données AgentInstruct a amélioré les performances de 33,94 % par rapport à la référence Orca 2.5 et de 14,92 % par rapport à Mistral-Instruct-7B.
Nouveaux records sur plusieurs benchmarks
Par exemple, une amélioration de 40 % sur AGIEval, 19 % sur MMLU, 54 % sur GSM8K, 38 % sur BBH et 45 % sur AlpacaEval.