Científicos de Meta revelan el proceso de entrenamiento de Llama 3.1, comienza el desarrollo de Llama 4

Los investigadores de Meta Thomas Scialom discuten el modelo Llama 3.1 y sus perspectivas de desarrollo.

Líneas de investigación de Llama 3.1

Cómo decidir la escala de parámetros

  • Se deben considerar múltiples factores como la ley de escalado, el tiempo de entrenamiento y las limitaciones del hardware GPU
  • No solo se considera el hardware propio de Meta, sino también la situación de toda la comunidad de IA
  • La aplicación de técnicas de cuantización ha cambiado la proporción de costos de inferencia y entrenamiento/ajuste fino
  • Se encontró un punto de equilibrio de 405B bajo las condiciones y limitaciones de potencia de cómputo existentes
  • El objetivo es crear un modelo de código abierto comparable a GPT-4

Revisión de la Ley de Escalado

  • La Ley de Escalado tradicional se centra en dos dimensiones: los pesos del modelo y la cantidad de entrenamiento
  • Chinchilla enfatizó la importancia de la cantidad total de tokens de datos de entrenamiento
  • Meta optó por aumentar el número de tokens de entrenamiento y la duración, permitiendo que el modelo se "sobre-entrene"
  • Esto no cumple con la ley de Chinchilla, pero puede lograr un mejor rendimiento de inferencia

Arquitectura del modelo

  • Pocos cambios en la arquitectura comparado con Llama 2, principalmente se expandió la escala y calidad de los datos
  • Posibles mejoras futuras en la arquitectura, no limitadas a Transformer
  • La arquitectura Transformer aún carece de flexibilidad
  • Se está explorando la arquitectura MoE

Sobre los datos sintéticos

  • Existe una gran cantidad de texto de baja calidad en internet público
  • Se usa Llama como clasificador para filtrar tokens de alta calidad
  • El entrenamiento posterior de Llama 3 utiliza completamente datos sintéticos obtenidos de Llama 2
  • Se ve un futuro prometedor para los datos sintéticos

Evaluación y mejora de LLM

  • Existe riesgo de sobreajuste al mejorar para puntuaciones de referencia
  • La evaluación de modelos de lenguaje es un problema difícil
  • Se probaron varios métodos de evaluación, como modelos de recompensa y model-as-a-judge
  • RLHF de múltiples rondas es un buen método para comparar modelos

Llama 4 y Agentes

  • Meta comenzó a entrenar el modelo Llama 4 en junio
  • El enfoque podría estar en la tecnología de agentes
  • Ya se ha trabajado en herramientas de agentes como Toolformer
  • Un excelente modelo de instrucciones es la base para expandir las capacidades de los agentes
  • El punto de referencia GAIA publicado por Meta se usa para evaluar la capacidad de resolver problemas reales
  • Las diversas capacidades de los agentes están estrechamente relacionadas con el nivel de inteligencia del modelo

Enlace original