Llama 3.1 405B: El gigante de IA de código abierto que supera a GPT-4 lidera una nueva era

Meta acaba de lanzar según lo previsto la última versión del modelo Llama: Llama 3.1.

Meta ha lanzado el modelo Llama 3.1, que incluye versiones de 8B, 70B y 405B. Las principales características son:

  • Longitud máxima de contexto aumentada a 128K
  • Soporte multilingüe
  • Excelente rendimiento en generación de código
  • Capacidades de razonamiento complejas

Según los resultados de las pruebas comparativas:

  • Llama 3.1 405B supera a GPT-4 0125, y compite con GPT-4o y Claude 3.5
  • Llama 3.1 8B supera a Gemma 2 9B 1T y Mistral 7B Instruct
  • Llama 3.1 70B supera a GPT-3.5 Turbo

Detalles del entrenamiento de Llama 3.1 405B:

  • Entrenado con más de 15 billones de tokens
  • Entrenado en más de 16000 GPUs H100
  • Utiliza un programa de post-entrenamiento iterativo, combinando ajuste fino supervisado y optimización directa de preferencias
  • Mejora en la cantidad y calidad de los datos de pre-entrenamiento y post-entrenamiento
  • Cuantificación de 16 bits a 8 bits, reduciendo los requisitos de recursos computacionales

Otros aspectos destacados:

  • Ofrece pesos de modelo y código abiertos/gratuitos
  • La licencia permite a los usuarios realizar ajuste fino, destilación de modelos y despliegue arbitrario
  • Proporciona Llama Stack API para facilitar la integración
  • Soporta la coordinación de múltiples componentes, incluyendo la invocación de herramientas externas

Meta ya no prohíbe el uso de Llama 3 para mejorar otros modelos, mostrando una actitud más abierta. Este lanzamiento marca la primera vez que los modelos de código abierto igualan el rendimiento de los modelos cerrados, inaugurando una nueva era liderada por el código abierto.

Dirección de descarga del modelo

Informe de entrenamiento de 92 páginas