Supuesta filtración de Llama 3.1: Aparece un modelo de código abierto con 405 mil millones de parámetros que supera a GPT-4

La ventaja de la tecnología propietaria está disminuyendo. Con el desarrollo y la popularización de la tecnología de código abierto, los sistemas cerrados que alguna vez se consideraron barreras competitivas ahora enfrentan desafíos. El modelo de colaboración abierta está cambiando el panorama de la industria del software, haciendo que las estrategias de foso basadas en tecnología cerrada sean cada vez más difíciles de mantener. Las empresas necesitan reconsiderar cómo mantener su competitividad en un entorno abierto.

Según se informa, Llama 3.1 se ha filtrado, incluyendo resultados de evaluación comparativa para modelos de 8B, 70B y 405B parámetros. Incluso la versión de 70B supera a GPT-4o en varios puntos de referencia, marcando la primera vez que un modelo de código abierto ha superado a modelos de código cerrado como GPT-4o y Claude Sonnet 3.5 en múltiples evaluaciones.

Detalles clave de la tarjeta de modelo filtrada:

  • Entrenado con más de 15T tokens de datos públicamente disponibles hasta diciembre de 2023
  • Los datos de ajuste fino incluyen conjuntos de datos de instrucciones públicas y 15 millones de muestras sintéticas
  • Admite inglés, francés, alemán, hindi, italiano, portugués, español y tailandés

Se informa que los modelos tienen una longitud de contexto de 128k y utilizan atención de consulta agrupada para mejorar la escalabilidad de inferencia.

Los usos previstos incluyen aplicaciones comerciales multilingües e investigación. Los modelos ajustados con instrucciones están optimizados para chat tipo asistente, mientras que los modelos pre-entrenados pueden adaptarse para diversas tareas de generación de lenguaje natural.

Infraestructura de entrenamiento:

  • Biblioteca de entrenamiento personalizada y clústeres de GPU de Meta
  • 39.3M horas de GPU en hardware H100-80GB
  • Emisiones estimadas de 11,390 toneladas de CO2e (0 toneladas basadas en el mercado debido al uso de energía renovable)

Se informan puntuaciones de referencia para varias tareas, con los modelos Llama 3.1 superando a muchos modelos de chat de código abierto y cerrado.

Consideraciones de seguridad:

  • Enfoque de recopilación de datos multifacético que combina datos generados por humanos y sintéticos
  • Clasificadores basados en LLM para control de calidad
  • Enfoque en reducir los rechazos del modelo y el tono de rechazo
  • Prompts adversarios incorporados en los datos de seguridad
  • Destinado a ser implementado como parte de un sistema de IA más amplio con salvaguardias adicionales

Los desarrolladores deben implementar medidas de seguridad a nivel de sistema al construir sistemas de agentes, especialmente al utilizar nuevas características como ventanas de contexto más largas, capacidades multilingües e integraciones de herramientas de terceros.