Meta ha lanzado el modelo Llama 3.1, que incluye versiones de 8B, 70B y 405B. Las principales características son:
- Longitud máxima de contexto aumentada a 128K
- Soporte multilingüe
- Excelente rendimiento en generación de código
- Capacidades de razonamiento complejas
Según los resultados de las pruebas comparativas:
- Llama 3.1 405B supera a GPT-4 0125, y compite con GPT-4o y Claude 3.5
- Llama 3.1 8B supera a Gemma 2 9B 1T y Mistral 7B Instruct
- Llama 3.1 70B supera a GPT-3.5 Turbo
Detalles del entrenamiento de Llama 3.1 405B:
- Entrenado con más de 15 billones de tokens
- Entrenado en más de 16000 GPUs H100
- Utiliza un programa de post-entrenamiento iterativo, combinando ajuste fino supervisado y optimización directa de preferencias
- Mejora en la cantidad y calidad de los datos de pre-entrenamiento y post-entrenamiento
- Cuantificación de 16 bits a 8 bits, reduciendo los requisitos de recursos computacionales
Otros aspectos destacados:
- Ofrece pesos de modelo y código abiertos/gratuitos
- La licencia permite a los usuarios realizar ajuste fino, destilación de modelos y despliegue arbitrario
- Proporciona Llama Stack API para facilitar la integración
- Soporta la coordinación de múltiples componentes, incluyendo la invocación de herramientas externas
Meta ya no prohíbe el uso de Llama 3 para mejorar otros modelos, mostrando una actitud más abierta. Este lanzamiento marca la primera vez que los modelos de código abierto igualan el rendimiento de los modelos cerrados, inaugurando una nueva era liderada por el código abierto.