Meta ha lanzado oficialmente Llama 3.1, que incluye modelos de tres tamaños: 8B, 70B y 405B, con una longitud máxima de contexto aumentada a 128k. Las principales características incluyen:
-
La versión de 405B es uno de los modelos de código abierto más grandes hasta la fecha, superando el rendimiento de los principales modelos de IA existentes.
-
Introduce una ventana de contexto más larga (hasta 128K tokens), capaz de manejar tareas y conversaciones más complejas.
-
Admite entrada y salida en múltiples idiomas, mejorando su versatilidad y rango de aplicación.
-
Mejora las capacidades de inferencia, destacando especialmente en la resolución de problemas matemáticos complejos y la generación de contenido en tiempo real.
Meta afirma que la era en la que los modelos de lenguaje de código abierto quedaban atrás de los modelos cerrados está llegando a su fin, y Llama 3.1 marca el comienzo de una nueva era liderada por el código abierto. La versión de 405B ya es comparable en rendimiento a GPT-4 y Claude 3.
En cuanto a la arquitectura del modelo, Llama 3.1 se entrenó con más de 15 billones de tokens de datos, utilizando más de 16,000 GPUs H100. Para garantizar la estabilidad y la conveniencia, se adoptó una arquitectura Transformer de solo decodificador estándar en lugar de una arquitectura MoE.
El equipo de investigación implementó un método de post-entrenamiento iterativo, mejorando las funciones del modelo mediante ajuste fino supervisado y optimización directa de preferencias. También exploraron el uso del modelo de 405B como "modelo maestro" para modelos más pequeños.
Meta también lanzó un sistema de referencia completo que incluye múltiples aplicaciones de ejemplo y nuevos componentes, como Llama Guard 3 y Prompt Guard. Además, propusieron una interfaz estandarizada "Llama Stack" para simplificar la construcción de componentes de cadena de herramientas y aplicaciones.
Según las pruebas de referencia, la versión de 405B es comparable o ligeramente superior a modelos cerrados como GPT-4 en varias pruebas. Las versiones de 8B y 70B también superan significativamente a otros modelos de código abierto de tamaño similar.
Enlace al blog oficial de Meta
Enlace al artículo de Mark Zuckerberg sobre IA de código abierto