Hoy en día, ha surgido una "crisis del petróleo" que está arrasando el círculo de la inteligencia artificial, y casi todos los fabricantes de IA están buscando desesperadamente nuevas fuentes de corpus, pero incluso más datos parecen no poder satisfacer el apetito de los grandes modelos de IA. Además, cada vez más plataformas de contenido se están dando cuenta del valor de los datos que tienen en sus manos y están empezando a atesorarlos. Como resultado, los "datos sintéticos" también se han convertido en una nueva dirección de exploración para toda la industria de la IA.
Sin embargo, durante bastante tiempo, se desconocía si los datos sintéticos serían útiles, hasta que recientemente el Dr. Thomas Scialom, investigador de IA de Meta, dio la respuesta a esta pregunta. Según reveló, el modelo de código abierto Llama 3 de Meta no dependía de ninguna respuesta escrita por humanos en su entrenamiento, sino que se basaba completamente en datos sintéticos generados por Llama 2.
Al introducir los detalles del entrenamiento de Llama 3, Thomas Scialom mencionó la aplicación de datos sintéticos en diferentes escenarios de grandes modelos, como la retroalimentación de la ejecución de código, la traducción de lenguajes de programación, la traducción inversa de documentos, preguntas y respuestas de textos largos, resúmenes de documentos largos, razonamiento de bases de código, etc., todos los cuales utilizaron ampliamente datos sintéticos. Esto también explica cómo el modelo Llama 3 lanzado por Meta esta primavera superó los 400 mil millones de parámetros y logró siete veces el volumen de datos de entrenamiento de Llama 2.
Los datos sintéticos generalmente se refieren a nuevos datos producidos por algoritmos que imitan las características de los datos del mundo real. Entonces, ¿cómo se logra esta operación de "pisar con el pie izquierdo el pie derecho para subir al cielo"? Dos artículos publicados por los equipos relevantes de Meta y Microsoft pueden revelarnos el secreto de entrenar grandes modelos utilizando datos sintéticos. Entre ellos, Meta se refiere a los grandes modelos entrenados con datos sintéticos como "modelos de lenguaje auto-recompensados", es decir, el propio modelo grande genera datos de entrenamiento, evalúa la calidad de estos datos y luego los usa para entrenarse a sí mismo.
El modelo de lenguaje auto-recompensado es en realidad una aplicación del llamado aprendizaje por refuerzo con retroalimentación de IA (RLAIF). La operación específica de Meta es primero pre-entrenar un modelo inicial basado en una pequeña cantidad de datos etiquetados manualmente, luego dejar que el modelo inicial genere múltiples respuestas candidatas basadas en preguntas, y usar el método LLM-as-a-Judge propuesto por el Dr. Andrew Ng para que el modelo de lenguaje grande califique sus propias respuestas generadas, y forme nuevos datos de entrenamiento basados en las calificaciones para continuar entrenando el modelo.
En este proceso, lo más importante es permitir que el modelo grande genere y evalúe nuevas instrucciones según los ejemplos y las agregue a su propio conjunto de entrenamiento. Debido a que el lenguaje binario utilizado por las computadoras es diferente del lenguaje humano, los investigadores necesitan convertir el lenguaje humano en una forma que las computadoras puedan entender, lo que se conoce como "incrustación de texto". Por ejemplo, el equipo de investigación de Microsoft definió una serie de tareas de incrustación de texto y diseñó indicaciones específicas para estas tareas para guiar al modelo de lenguaje grande en la generación de datos específicos.
Las indicaciones específicas creadas por los investigadores incluirán dos elementos clave, a saber, preguntas y roles, y luego se combinarán. Por ejemplo, la combinación de conductores y problemas matemáticos puede generar preguntas de nivel primario y secundario, guiando al modelo de lenguaje grande para sintetizar datos desde la perspectiva correspondiente, este es el secreto del modelo de lenguaje auto-recompensado. A continuación, los investigadores solo necesitan limpiar y formatear los datos generados, eliminar contenido duplicado, corregir errores de formato para asegurarse de que cumplan con los requisitos de entrenamiento.
La ventaja de los datos sintéticos es que pueden reflejar las propiedades de los datos reales en términos matemáticos y físicos, y debido a que no requieren etiquetado manual, también reducen significativamente los errores humanos causados por el proceso de recopilación y transferencia de datos y la inconsistencia de los estándares humanos. Entonces, la pregunta es, si los datos sintéticos pueden ser una solución a la escasez de datos de entrenamiento y los altos costos derivados, ¿por qué muchos fabricantes de IA todavía prefieren extraer o comprar datos generados por humanos?
La razón más crucial es que, aunque se han adoptado prompts cuidadosamente diseñados y entrenamiento supervisado, los sesgos inherentes y las alucinaciones de los modelos de lenguaje grandes aún pueden introducir ruido en el conjunto de datos, y los modelos de lenguaje grandes entrenados sobre la base de datos sintéticos erróneos, alucinatorios o sesgados no podrán generalizarse a escenarios del mundo real. Los modelos de lenguaje grandes basados en datos sintéticos necesitan evitar ser "contaminados" por el aprendizaje automático, y cuanto mayor sea la proporción de datos sintéticos en los datos de entrenamiento, más difícil será mejorar la capacidad de comprensión del lenguaje natural.
Por ejemplo, el profesor de Stanford Percy Liang señaló que los datos sintéticos carecen de valiosa "humanidad", por lo que los grandes modelos entrenados con datos sintéticos no son suficientes para alcanzar la AGI. Más importante aún, los datos sintéticos se pueden usar para verificar o expandir áreas que los humanos ya conocen, pero no pueden revelar áreas que no existen en el conjunto de datos inicial, su límite es el límite del conjunto de datos inicial.
Por lo tanto, es teóricamente posible que Meta haya entrenado Llama 3 basándose en datos sintéticos generados por Llama 2, pero no nos han dicho cuánto esfuerzo humano y tiempo costó este proceso. Aunque los datos sintéticos son ciertamente más baratos que los datos reales, aún se desconoce cuánto costará eliminar los datos sintéticos no calificados.
Si los datos sintéticos fueran realmente más baratos que los datos reales en todos los aspectos, incluso frente a problemas de alucinaciones y ética de la IA, no habría razón para que los principales fabricantes de IA sigan enfocándose en los datos generados por humanos.