Según se informa, Llama 3.1 se ha filtrado, incluyendo resultados de evaluación comparativa para modelos de 8B, 70B y 405B parámetros. Incluso la versión de 70B supera a GPT-4o en varios puntos de referencia, marcando la primera vez que un modelo de código abierto ha superado a modelos de código cerrado como GPT-4o y Claude Sonnet 3.5 en múltiples evaluaciones.
Detalles clave de la tarjeta de modelo filtrada:
- Entrenado con más de 15T tokens de datos públicamente disponibles hasta diciembre de 2023
- Los datos de ajuste fino incluyen conjuntos de datos de instrucciones públicas y 15 millones de muestras sintéticas
- Admite inglés, francés, alemán, hindi, italiano, portugués, español y tailandés
Se informa que los modelos tienen una longitud de contexto de 128k y utilizan atención de consulta agrupada para mejorar la escalabilidad de inferencia.
Los usos previstos incluyen aplicaciones comerciales multilingües e investigación. Los modelos ajustados con instrucciones están optimizados para chat tipo asistente, mientras que los modelos pre-entrenados pueden adaptarse para diversas tareas de generación de lenguaje natural.
Infraestructura de entrenamiento:
- Biblioteca de entrenamiento personalizada y clústeres de GPU de Meta
- 39.3M horas de GPU en hardware H100-80GB
- Emisiones estimadas de 11,390 toneladas de CO2e (0 toneladas basadas en el mercado debido al uso de energía renovable)
Se informan puntuaciones de referencia para varias tareas, con los modelos Llama 3.1 superando a muchos modelos de chat de código abierto y cerrado.
Consideraciones de seguridad:
- Enfoque de recopilación de datos multifacético que combina datos generados por humanos y sintéticos
- Clasificadores basados en LLM para control de calidad
- Enfoque en reducir los rechazos del modelo y el tono de rechazo
- Prompts adversarios incorporados en los datos de seguridad
- Destinado a ser implementado como parte de un sistema de IA más amplio con salvaguardias adicionales
Los desarrolladores deben implementar medidas de seguridad a nivel de sistema al construir sistemas de agentes, especialmente al utilizar nuevas características como ventanas de contexto más largas, capacidades multilingües e integraciones de herramientas de terceros.