Llama 3.1 filtrado: ¿Rendimiento superior a GPT-4 con solo una décima parte del costo?

Meta, bajo su modelo de IA Llama, ha sufrido otro incidente de filtración, generando preocupación en la comunidad de código abierto. A pesar de las repetidas filtraciones, Llama mantiene su enfoque de código abierto, aunque esta estrategia enfrenta desafíos. El incidente resalta la contradicción entre la apertura y la seguridad de la tecnología de IA, y también suscita reflexiones sobre la gestión y protección de los modelos de código abierto.

¡El rendimiento de Llama 3.1 es comparable al de GPT-4o de OpenAI!

Algunos blogueros de IA elogiaron que el lanzamiento de Llama 3.1 sería otro día que cambiaría el destino del mundo de la IA.

Los resultados filtrados de las pruebas comparativas muestran que Llama 3.1 viene en tamaños de 8B, 70B y 405B. Incluso el modelo de 70B con el menor número de parámetros se desempeña a la par de GPT-4o en muchos aspectos.

Algunos internautas señalaron que, según esta comparativa, Llama 3.1 405B ≈ GPT-4o, mientras que Llama 3.1 70B se convertiría en el primer modelo ligero en superar a OpenAI, un GPT-4o mini.

Sin embargo, muchos que han descargado el modelo para probarlo descubrieron que el Llama 3.1 405B filtrado tiene un tamaño total de archivo de aproximadamente 820GB, requiriendo casi 3 veces la memoria de Llama 2 (alrededor de 280GB) para mantener la precisión completa.

Esto significa que a menos que tengas un equipo de minería en casa y puedas permitirte suficientes GPUs, los desarrolladores individuales tendrán dificultades para ejecutar Llama 3.1 en sus propias computadoras. Algunos internautas especulan que Llama 3.1 no está dirigido a individuos, sino a instituciones y empresas.

El aún no anunciado Llama 3.1 también ha sido recibido con algo de frialdad. Muchos internautas se quejaron de que los requisitos de GPU de Llama 3.1 son demasiado altos, haciendo que el GPT-4o mini de OpenAI sea más rentable en comparación.

Según la información filtrada del modelo, Llama 3.1 tiene más iteraciones en funcionalidad en comparación con Llama 3 lanzado el 19 de abril de 2024, incluyendo ventanas de contexto más largas, entrada y salida multilingüe, y posible integración con desarrolladores y herramientas de terceros.

Datos de entrenamiento: Llama 3.1 fue entrenado con más de 15T tokens de fuentes públicas, con datos de ajuste fino que incluyen conjuntos de datos de instrucción de ajuste disponibles públicamente (¡a diferencia de Llama-3!) y más de 25 millones de ejemplos generados sintéticamente.

Conversación multilingüe: Llama 3.1 admite 8 idiomas: inglés, alemán, francés, italiano, portugués, hindi, español y tailandés. Aunque lamentablemente el chino no está incluido, los desarrolladores pueden ajustar el modelo Llama 3.1 para idiomas más allá de los 8 admitidos.

Ventana de contexto: La longitud del contexto para cada versión se ha ampliado de 8k a 128k, aproximadamente equivalente a que el modelo pueda recordar, entender y procesar unas 96,000 palabras a la vez, casi un libro original completo de Harry Potter.

Muchos internautas están ansiosos por enfrentar a Llama 3.1 contra sus "predecesores", descubriendo que no solo han mejorado significativamente las métricas, sino que también se han ahorrado recursos computacionales.

Según las pruebas de los internautas, Llama 3.1 muestra mejoras significativas en capacidades en comparación con Llama 3. En particular, las capacidades de human_eval y truthfulqa_mc1 han mejorado notablemente, lo que significa habilidades más fuertes de generación de código y respuestas más veraces a preguntas.

Al mismo tiempo, el modelo de instrucción de Llama 3 muestra claras mejoras sobre el modelo base en métricas como aprendizaje de indicaciones, aprendizaje contextual y ajuste eficiente de parámetros.

Esto es razonable, ya que los modelos base típicamente no están ajustados para tareas específicas, mientras que los modelos de instrucción están especialmente entrenados para seguir instrucciones o completar tareas específicas. Por lo general, los modelos de instrucción se desempeñan mejor en las métricas.

Esto hace que la gente esté aún más emocionada por el lanzamiento oficial de Llama 3.1. ¡Las pruebas actuales del modelo filtrado de Llama 3.1 solo se dirigen al modelo base, mientras que el modelo de instrucción podría funcionar aún mejor!

Sorprendentemente, en los resultados de las pruebas comparativas, el modelo Llama 3.1 70B iguala o supera a GPT-4o, mientras que el modelo Llama 3.1 8B se desempeña cerca del modelo Llama 3 70B. Algunos internautas especulan que esto puede haber utilizado técnicas de destilación de modelos, donde los modelos de 8B y 70B son versiones simplificadas derivadas del modelo más grande de 405B, haciendo que el modelo grande sea "más pequeño".

La destilación de modelos puede verse como estudiantes aprendiendo de maestros. El modelo grande y poderoso (modelo maestro) es el maestro, mientras que el modelo más pequeño y simple (modelo estudiante) es el estudiante. El modelo estudiante aprende "imitando" al modelo maestro, tratando de hacer que su salida sea lo más cercana posible a la salida del modelo maestro, aprendiendo así conocimientos y capacidades similares.

Después del entrenamiento de destilación, el modelo estudiante puede reducir el tamaño del modelo y los requisitos de recursos computacionales mientras mantiene un alto rendimiento y una precisión comparable.

Aún se desconoce si Llama 3.1 será de código abierto como se espera. Pero incluso si es de código abierto, aún necesitarás bolsillos profundos para permitirte usar Llama 3.1.

El boleto de entrada básico para ejecutar Llama 3.1 son suficientes GPUs.

Los archivos filtrados muestran que el tiempo de entrenamiento para Llama 3.1 405B en hardware tipo H100-80GB es de 30.84M horas GPU. Esto significa que suponiendo que solo se use una H100-80GB por hora, ejecutar Llama 3.1 405B tomaría 30.84M horas - ¡tomaría 3500 años para que el modelo se ejecute!

Para implementación privada, si una empresa quiere ejecutar con éxito Llama 3.1 405B en un mes, necesitaría almacenar al menos 43,000 H100-80GBs. A $40,000 por H100, ### el boleto de entrada para usar la potencia de cómputo de Llama 3.1 405B sería tan alto como $17 mil millones, equivalente a 125 mil millones de RMB.

La buena noticia es que los costos de inferencia de Llama 3.1 pueden ser más baratos.

Según las predicciones de Artificial Analysis, el costo de procesar 1 millón de tokens con Llama 3.1 405B será más barato que los modelos de frontera de calidad similar (GPT-4o y Claude 3.5 Sonnet), ofreciendo una mejor relación costo-efectividad.

Además, algunos internautas especulan a partir del código fuente que Llama 3.1 405B podría convertirse en un producto de membresía que requiera pago para su uso. Sin embargo, la situación real queda por verse en el lanzamiento oficial.