El nuevo rey del AI de código abierto: Llama 3.1 filtrado supera a GPT-4o

Familia Llama 3.1, Lanzamiento Mañana

Según la tarjeta de modelo filtrada, Llama 3.1 será lanzado el día 23.

La licencia es "Licencia Comercial Personalizada" y "Licencia Comunitaria Llama 3.1".

Específicamente, la serie Llama 3.1 de modelos de lenguaje grande multilingües es un conjunto de modelos generativos pre-entrenados y ajustados por instrucciones, incluyendo escalas de parámetros de 8B, 70B y 405B.

Los modelos Llama 3.1 de solo texto ajustados por instrucciones (8B, 70B, 405B) están optimizados para casos de uso conversacional multilingüe.

Además del inglés, admite 7 idiomas incluyendo alemán, francés, italiano, portugués, hindi, español y tailandés.

Según la introducción, las nuevas capacidades de Llama 3.1 incluyen contexto más largo, soporte para entrada y salida multilingüe, e integración con herramientas de desarrolladores y de terceros.

Pruebas de Referencia

Un gráfico de referencia en GitHub (ahora 404) muestra el excelente rendimiento de Llama 3.1 en pruebas de referencia.

Específicamente, en evaluaciones de referencia de modelos pre-entrenados, Llama 3.1 405B estableció nuevos récords en tareas generales, razonamiento de conocimientos y comprensión lectora.

Las mejoras fueron más notables en los sub-benchmarks MMLU y SQuAD.

Mientras tanto, las versiones de 8B y 70B parámetros de Llama 3.1 mostraron ligeras mejoras en comparación con Llama 3. Sin embargo, en algunas métricas, el Llama 3.1 70B aún tuvo un rendimiento inferior a su predecesor.

Además, entre los modelos ajustados por instrucciones, Llama 3.1 405B es claramente más fuerte que el modelo pre-entrenado. Supera significativamente a las versiones ajustadas de 8B y 70B en razonamiento, codificación, matemáticas, uso de herramientas y benchmarks multilingües.

Los modelos ajustados Llama 3.1 8B y 70B también muestran mejoras sustanciales de rendimiento en múltiples tareas de capacidad.

Algunos internautas compilaron benchmarks de otros modelos líderes, mostrando a través de comparación que Claude 3.5 Sonnet es el campeón en todos los benchmarks.

La versión ajustada de Llama 3.1 405B solo tiene el mejor rendimiento en el benchmark de matemáticas MMLU Pro, superando a todos los modelos grandes con una puntuación del 73.3%.

Además, 405B está a la par con GPT-4o en los benchmarks GPQA (conocimiento y razonamiento profesional de nivel de posgrado), matemáticas, DROP (comprensión lectora), MGSM (matemáticas multilingües), HumanEval (programación) y BBH (evaluación de conocimientos).

Además, 405B supera significativamente al último modelo mini GPT-4o.

Llama 3.1 es un modelo de lenguaje autorregresivo que utiliza una arquitectura Transformer optimizada. Las versiones ajustadas utilizan SFT y RLHF para alinearse con las preferencias de seguridad humanas.

Para los modelos de la serie Llama 3.1, los recuentos de tokens se refieren solo a los datos de pre-entrenamiento.

Todas las versiones del modelo utilizan atención de consulta agrupada (GQA) para mejorar la escalabilidad de inferencia.

15T Tokens de Datos de Entrenamiento

Al igual que Llama 3, Llama 3.1 fue pre-entrenado con aproximadamente 15 billones de tokens de fuentes públicamente disponibles.

Los datos de ajuste fino incluyen conjuntos de datos de instrucciones públicamente disponibles, así como más de 25 millones de muestras sintéticas, con datos de pre-entrenamiento cortados en diciembre de 2023.

Disponible para Uso Comercial y de Investigación

Llama 3.1 admite tanto uso comercial como de investigación en entornos multilingües.

Los modelos de solo texto ajustados por instrucciones son adecuados para asistentes de chat, mientras que los modelos pre-entrenados pueden adaptarse a diversas tareas de generación de lenguaje natural. La colección de modelos Llama 3.1 también admite el uso de sus salidas de modelo para mejorar otros modelos, incluyendo generación de datos sintéticos y destilación de modelos.

Los usos que violen leyes y regulaciones, políticas de uso y la Licencia Comunitaria Llama 3.1, o usos más allá de los idiomas admitidos, están fuera del alcance.

El equipo enfatiza que Llama 3.1 fue entrenado en un conjunto más amplio de idiomas más allá de los 8 admitidos. Los desarrolladores pueden ajustarlo para su uso en otros idiomas, siempre que cumplan con políticas como la licencia comunitaria y garanticen un uso seguro y responsable.

39.3 Millones de Horas GPU de Entrenamiento

Para el pre-entrenamiento, Meta utilizó bibliotecas de entrenamiento personalizadas, clústeres GPU personalizados de Meta e infraestructura de producción. El ajuste fino, la anotación y la evaluación también se realizaron en infraestructura de producción.

El entrenamiento utilizó acumulativamente 39.3 millones de horas GPU de tiempo de cómputo, con H100-80GB (700W TDP) como tipo de hardware.

El tiempo de entrenamiento es el tiempo total de GPU requerido para entrenar cada modelo, y el consumo de energía es la capacidad de potencia máxima de cada dispositivo GPU, ajustada por la eficiencia de uso de energía.