Cuando los "datos sintéticos" se encuentran con los agentes inteligentes
En el último año, hemos sido testigos del auge de los agentes inteligentes. Estos agentes pueden generar datos de alta calidad y, a través de la reflexión y la iteración, sus capacidades superan a los modelos de base subyacentes.
En este proceso, los agentes pueden revisar soluciones, autocriticarse y mejorar sus respuestas. Incluso pueden utilizar herramientas como APIs de búsqueda, calculadoras e intérpretes de código para ampliar las capacidades de los grandes modelos.
Además, los sistemas multi-agente pueden aportar más ventajas, como simular escenarios y generar simultáneamente nuevos prompts y respuestas. También pueden automatizar los flujos de trabajo de generación de datos, reduciendo o eliminando la necesidad de intervención humana en ciertas tareas.
En el artículo, los autores introducen el concepto de "enseñanza generativa". Esto implica usar datos sintéticos para el post-entrenamiento, especialmente creando datos con modelos potentes para enseñar nuevas habilidades o comportamientos a otro modelo.
AgentInstruct es una solución de agente para la enseñanza generativa.
En resumen, AgentInstruct puede crear:
- Datos de alta calidad: utilizando modelos potentes como GPT-4, combinados con herramientas como búsqueda e intérpretes de código.
- Datos diversos: AgentInstruct genera simultáneamente prompts y respuestas. Utiliza múltiples agentes (equipados con LLMs potentes, herramientas y procesos de reflexión) y una taxonomía con más de 100 subcategorías para crear prompts y respuestas diversos y de alta calidad.
- Grandes cantidades de datos: AgentInstruct puede funcionar de forma autónoma y aplicar procesos de validación y filtrado de datos. No requiere prompts semilla, sino que utiliza documentos originales como semillas.
Enseñanza generativa: AgentInstruct
¿Cómo creamos grandes cantidades de datos? ¿Cómo aseguramos que los datos generados sean diversos? ¿Cómo generamos datos complejos o sutiles?
Para abordar estos desafíos, los investigadores describen un enfoque estructurado:
Específicamente, AgentInstruct define tres procesos de generación automatizados diferentes:
Proceso de transformación de contenido: convierte las semillas originales en una representación intermedia, simplificando la creación de instrucciones para objetivos específicos.
Proceso de generación de instrucciones semilla: compuesto por múltiples agentes, toma como entrada las semillas transformadas del proceso de transformación de contenido y genera un conjunto diverso de instrucciones.
Proceso de mejora de instrucciones: toma como entrada las instrucciones del proceso de instrucciones semilla y mejora iterativamente su complejidad y calidad.
A continuación, los investigadores implementaron estos procesos para 17 habilidades diferentes, cada una con múltiples subcategorías. Estas habilidades incluyen comprensión lectora, preguntas y respuestas, codificación, generación aumentada por recuperación, escritura creativa, uso de herramientas/API y control web.
Resultados experimentales
Como se mencionó al principio, los investigadores utilizaron 25.8 millones de pares de instrucciones para ajustar el modelo Mistral-7b-v0.1, obteniendo así Orca-3.
Entonces, ¿cómo es el rendimiento de Orca-3 después de entrenarlo con los datos de AgentInstruct?
El objetivo de AgentInstruct es sintetizar un conjunto de datos grande y diverso que incluya datos de diferentes niveles de dificultad. En este conjunto de datos, modelos de referencia como Orca-2.5, Mistral-Instruct-7b y ChatGPT obtuvieron puntuaciones muy por debajo de 10, mostrando su desventaja en comparación con GPT-4 (designado como referencia con una puntuación de 10).
En promedio, incluyendo Orca-3 después de cada ronda de entrenamiento, la introducción de datos de AgentInstruct mejoró el rendimiento en un 33.94% en comparación con la referencia Orca 2.5 y en un 14.92% en comparación con Mistral-Instruct-7B.
Actualizando múltiples SOTA de referencia
Por ejemplo, una mejora del 40% en AGIEval, 19% en MMLU, 54% en GSM8K, 38% en BBH y 45% en AlpacaEval.