Lanzamiento impactante: El modelo de código abierto Llama 3.1 lidera una nueva era de IA para todos

Utilizando 16.000 GPUs H100, entrenado con 150 mil millones de tokens.

01. Modelo de código abierto de 405B compite con GPT-4o, 25 socios ya están listos

Meta evaluó el rendimiento en más de 150 conjuntos de datos de referencia. Llama 3.1 405B es comparable a GPT-4o, Claude 3.5 Sonnet y Gemini Ultra en una serie de tareas como sentido común, accionabilidad, matemáticas, uso de herramientas y traducción multilingüe.

En escenarios reales, Llama 3.1 405B se comparó con evaluaciones humanas, superando en general a GPT-4o y Claude 3.5 Sonnet.

Los modelos actualizados Llama 3.1 8B y 70B también tienen un mejor rendimiento en comparación con modelos del mismo tamaño. Estos modelos más pequeños admiten la misma ventana de contexto de 128K tokens, capacidades multilingües, inferencia mejorada y uso de herramientas de vanguardia para permitir aplicaciones más avanzadas.

Meta actualizó su licencia para permitir a los desarrolladores usar por primera vez la salida de los modelos Llama, incluido el de 405B parámetros, para mejorar otros modelos.

Al mismo tiempo, el ecosistema de código abierto de Meta se ha expandido aún más, con más de 25 empresas lanzando nuevos modelos Llama 3.1.

Entre ellos, Amazon Web Services, Databricks y NVIDIA están lanzando un conjunto completo de servicios para permitir a los desarrolladores ajustar y entrenar sus propios modelos. Startups de chips de IA como Groq han construido servicios de inferencia de baja latencia y bajo costo para todos los nuevos modelos lanzados por Meta esta vez.

Al mismo tiempo, estos modelos estarán disponibles en las principales plataformas en la nube como Amazon Web Services, Microsoft Azure, Google Cloud y Oracle.

Empresas como Scale AI, Dell y Deloitte están listas para ayudar a las empresas a adoptar modelos Llama y entrenar modelos personalizados con sus propios datos.

Llama 3.1 405B no solo es el modelo de código abierto más potente, sino que también tiene el potencial de convertirse en el modelo más fuerte, acortando una vez más la distancia entre código abierto y cerrado.

02. Pila de entrenamiento completamente optimizada, enfocada en hacer que el modelo sea escalable

Para poder entrenar el modelo basado en 15 billones de tokens y lograr los efectos deseados por los investigadores en un tiempo razonable, Meta optimizó completamente la pila de entrenamiento.

Para abordar estos desafíos, Meta optó por enfocarse en mantener el proceso de desarrollo del modelo escalable y una estrategia más directa:

  1. Los investigadores eligieron la arquitectura de modelo Transformer estándar de solo decodificador con ajustes menores, en lugar de adoptar el modelo de Mezcla de Expertos (MoE), para maximizar la estabilidad del entrenamiento.

  2. Los investigadores adoptaron un procedimiento de post-entrenamiento iterativo, utilizando ajuste fino supervisado y optimización directa de preferencias en cada ronda. Esto permitió al modelo crear datos sintéticos de la más alta calidad para cada ronda y mejorar el rendimiento en cada capacidad.

En comparación con los modelos anteriores de la serie Llama, Meta mejoró la cantidad y calidad de los datos utilizados para el pre-entrenamiento y post-entrenamiento. Estas mejoras incluyen el desarrollo de pipelines de preprocesamiento y gestión más cuidadosos para los datos de pre-entrenamiento, el desarrollo de un control de calidad más riguroso y métodos de filtrado para los datos de post-entrenamiento.

Como era de esperar según las Leyes de Escala de los grandes modelos de lenguaje, el nuevo modelo insignia de Meta supera a los modelos más pequeños entrenados con la misma estrategia. Meta también utilizó el modelo de 405B parámetros para mejorar la calidad del entrenamiento de sus modelos más pequeños.

Al mismo tiempo, para soportar la inferencia a gran escala del modelo de 405B parámetros, los investigadores cuantizaron el modelo de BF16 a FP8, reduciendo efectivamente los requisitos computacionales necesarios y permitiendo que el modelo se ejecute dentro de un solo nodo de servidor.

En cuanto al ajuste fino de instrucciones y chat, los investigadores generaron el modelo final mediante varias rondas de alineación sobre el modelo pre-entrenado, cada una involucrando ajuste fino supervisado (SFT), muestreo de rechazo (RS) y optimización directa de preferencias (DPO), utilizando generación de datos sintéticos para producir la gran mayoría de los ejemplos de SFT para generar datos sintéticos de mayor calidad en todas las funcionalidades.

Además, Meta empleó varias técnicas de procesamiento de datos para filtrar estos datos sintéticos a la más alta calidad, lo que permitió a los nuevos modelos escalar la cantidad de datos de ajuste fino en todas las funcionalidades.

En cuanto a los datos, los investigadores también los equilibraron cuidadosamente para generar modelos de alta calidad con todas las funcionalidades. Por ejemplo, garantizaron la calidad del modelo en benchmarks de contexto corto, permitiéndole escalar a longitudes de contexto de 128K.

Además, Meta también anunció el lanzamiento de un sistema Llama integral. Este sistema, además de abarcar los modelos Llama, involucra la coordinación de múltiples componentes y llamadas a herramientas externas, ayudando así a los desarrolladores a desarrollar productos personalizados más potentes que el modelo base.

El sistema Llama abarcará una serie de nuevos componentes, incluyendo nuevas herramientas de seguridad de código abierto como Llama Guard 3 (modelo de seguridad multilingüe) y Prompt Guard (filtro de inyección de prompts). Para conectar los componentes dispersos, Meta también lanzó una solicitud de comentarios sobre la API de Llama Stack, una interfaz estándar para que los proyectos de terceros utilicen más fácilmente los modelos Llama.

Para los desarrolladores comunes, usar un modelo de escala 405B sigue siendo un desafío, requiriendo grandes recursos computacionales y experiencia.

Basado en el sistema Llama, el desarrollo de IA generativa no es solo solicitar al modelo, todos deberían poder usar el modelo 405B para realizar más tareas, incluyendo inferencia en tiempo real y por lotes, ajuste fino supervisado, evaluación de modelos para aplicaciones específicas, pre-entrenamiento continuo, generación aumentada por recuperación (RAG), llamadas a funciones, generación de datos sintéticos, etc.

Este es el modelo más grande lanzado por Meta hasta la fecha, y en el futuro se lanzarán más tamaños amigables para dispositivos, más modalidades y actualizaciones a nivel de agente.

03. El gran modelo 405B revoluciona Meta AI, el asistente de voz inteligente Quest se actualiza

Ahora, varias terminales de Meta, como WhatsApp y el chatbot Meta AI, han comenzado a utilizar Llama 3.1 405B.

Meta AI ahora admite siete nuevos idiomas, y esta vez Meta lanzó un nuevo conjunto de herramientas creativas de Meta AI, enfocándose principalmente en generación visual, matemáticas y codificación.

Primero, echemos un vistazo a la generación visual. Meta AI lanzó la función de generación de imágenes "Imagíname" (Imagine Me), que permite a los usuarios ingresar "imagíname" en el chat de Meta AI y agregar un prompt, como "imagíname como miembro de la realeza" o "imagíname en una pintura surrealista", para generar imágenes y compartirlas con amigos y familiares.