Llama 3.1 405B: El gigante de IA de código abierto que supera a GPT-4 lidera una nueva era

Meta ha lanzado el modelo Llama 3.1, que incluye versiones de 8B, 70B y 405B. Las principales características son:

Longitud máxima de contexto aumentada a 128K
Soporte multilingüe
Excelente rendimiento en generación de código
Capacidades de razonamiento complejas

Según los resultados de las pruebas comparativas:

Llama 3.1 405B supera a GPT-4 0125, y compite con GPT-4o y Claude 3.5
Llama 3.1 8B supera a Gemma 2 9B 1T y Mistral 7B Instruct
Llama 3.1 70B supera a GPT-3.5 Turbo

Detalles del entrenamiento de Llama 3.1 405B:

Entrenado con más de 15 billones de tokens
Entrenado en más de 16000 GPUs H100
Utiliza un programa de post-entrenamiento iterativo, combinando ajuste fino supervisado y optimización directa de preferencias
Mejora en la cantidad y calidad de los datos de pre-entrenamiento y post-entrenamiento
Cuantificación de 16 bits a 8 bits, reduciendo los requisitos de recursos computacionales

Otros aspectos destacados:

Ofrece pesos de modelo y código abiertos/gratuitos
La licencia permite a los usuarios realizar ajuste fino, destilación de modelos y despliegue arbitrario
Proporciona Llama Stack API para facilitar la integración
Soporta la coordinación de múltiples componentes, incluyendo la invocación de herramientas externas

Meta ya no prohíbe el uso de Llama 3 para mejorar otros modelos, mostrando una actitud más abierta. Este lanzamiento marca la primera vez que los modelos de código abierto igualan el rendimiento de los modelos cerrados, inaugurando una nueva era liderada por el código abierto.

Dirección de descarga del modelo

Informe de entrenamiento de 92 páginas

Llama 3.1 405B: El gigante de IA de código abierto que supera a GPT-4 lidera una nueva era

Meta acaba de lanzar según lo previsto la última versión del modelo Llama: Llama 3.1.