Líneas de investigación de Llama 3.1
Cómo decidir la escala de parámetros
- Se deben considerar múltiples factores como la ley de escalado, el tiempo de entrenamiento y las limitaciones del hardware GPU
- No solo se considera el hardware propio de Meta, sino también la situación de toda la comunidad de IA
- La aplicación de técnicas de cuantización ha cambiado la proporción de costos de inferencia y entrenamiento/ajuste fino
- Se encontró un punto de equilibrio de 405B bajo las condiciones y limitaciones de potencia de cómputo existentes
- El objetivo es crear un modelo de código abierto comparable a GPT-4
Revisión de la Ley de Escalado
- La Ley de Escalado tradicional se centra en dos dimensiones: los pesos del modelo y la cantidad de entrenamiento
- Chinchilla enfatizó la importancia de la cantidad total de tokens de datos de entrenamiento
- Meta optó por aumentar el número de tokens de entrenamiento y la duración, permitiendo que el modelo se "sobre-entrene"
- Esto no cumple con la ley de Chinchilla, pero puede lograr un mejor rendimiento de inferencia
Arquitectura del modelo
- Pocos cambios en la arquitectura comparado con Llama 2, principalmente se expandió la escala y calidad de los datos
- Posibles mejoras futuras en la arquitectura, no limitadas a Transformer
- La arquitectura Transformer aún carece de flexibilidad
- Se está explorando la arquitectura MoE
Sobre los datos sintéticos
- Existe una gran cantidad de texto de baja calidad en internet público
- Se usa Llama como clasificador para filtrar tokens de alta calidad
- El entrenamiento posterior de Llama 3 utiliza completamente datos sintéticos obtenidos de Llama 2
- Se ve un futuro prometedor para los datos sintéticos
Evaluación y mejora de LLM
- Existe riesgo de sobreajuste al mejorar para puntuaciones de referencia
- La evaluación de modelos de lenguaje es un problema difícil
- Se probaron varios métodos de evaluación, como modelos de recompensa y model-as-a-judge
- RLHF de múltiples rondas es un buen método para comparar modelos
Llama 4 y Agentes
- Meta comenzó a entrenar el modelo Llama 4 en junio
- El enfoque podría estar en la tecnología de agentes
- Ya se ha trabajado en herramientas de agentes como Toolformer
- Un excelente modelo de instrucciones es la base para expandir las capacidades de los agentes
- El punto de referencia GAIA publicado por Meta se usa para evaluar la capacidad de resolver problemas reales
- Las diversas capacidades de los agentes están estrechamente relacionadas con el nivel de inteligencia del modelo