Meta lanza en código abierto un modelo de lenguaje de gran escala con 405 mil millones de parámetros: Llama 3.1 oficialmente publicado

Meta movilizó rápidamente a la comunidad de código abierto para ejercer presión competitiva sobre OpenAI.

La siguiente es la carta abierta de Zuckerberg, traducida por "AI Emergence":

"La IA de código abierto es el camino a seguir"

En los primeros días de la computación de alto rendimiento, las principales empresas tecnológicas de la época invirtieron fuertemente en desarrollar sus propias versiones de Unix de código cerrado. En ese momento, era difícil imaginar cualquier otra forma de desarrollar un software tan avanzado.

Sin embargo, el Linux de código abierto eventualmente se hizo popular - inicialmente porque permitía a los desarrolladores modificar su código como quisieran y era más barato; con el tiempo, se volvió más avanzado, más seguro y tenía un ecosistema mucho más amplio que soportaba más características que cualquier Unix cerrado. Hoy en día, Linux es el estándar de la industria para la computación en la nube y los sistemas operativos que ejecutan la mayoría de los dispositivos móviles - todos nos beneficiamos de sus productos superiores.

Creo que la inteligencia artificial evolucionará de manera similar. Hoy, unas pocas empresas tecnológicas están desarrollando modelos cerrados líderes. Pero el código abierto está cerrando rápidamente esta brecha. El año pasado, Llama 2 solo podía competir con modelos de generaciones anteriores que estaban rezagados. Este año, Llama 3 compite con modelos de vanguardia y lidera en algunas áreas. A partir del próximo año, esperamos que los futuros Llamas sean los más avanzados de la industria. Pero incluso antes de eso, Llama ya está liderando en apertura, modificabilidad y eficiencia de costos.

Hoy, estamos dando el siguiente paso para hacer de la IA de código abierto el estándar de la industria. Estamos lanzando Llama 3.1 405B - el primer modelo de IA de código abierto a niveles líderes en la industria - junto con nuevos y mejorados modelos Llama 3.1 70B y 8B. Además de tener una mejor relación costo/rendimiento en comparación con los modelos de código cerrado, el hecho de que el modelo 405B sea de código abierto lo convertirá en la mejor opción para el ajuste fino y la extracción de modelos más pequeños.

Además de lanzar estos modelos, nos estamos asociando con una variedad de empresas para desarrollar un ecosistema más amplio. Amazon, Databricks y Nvidia están lanzando suites completas de servicios para apoyar a los desarrolladores en el ajuste fino y refinamiento de sus propios modelos. Empresas innovadoras como Groq (una startup de chips de IA) han construido servicios de inferencia de baja latencia y bajo costo para todos los nuevos modelos.

Estos modelos estarán disponibles en todas las principales nubes, incluyendo AWS, Azure, Google, Oracle y más. Scale.AI, Dell, Deloitte y otros están listos para ayudar a las empresas a implementar Llama y entrenar modelos personalizados utilizando sus propios datos. A medida que la comunidad crece y más empresas desarrollan nuevos servicios, podemos hacer colectivamente de Llama el estándar de la industria y llevar los beneficios de la IA a todos.

Meta está comprometida con la IA de código abierto. Explicaré por qué creo que el código abierto es la mejor pila de desarrollo para las personas, por qué hacer de código abierto a Llama es bueno para Meta, por qué la IA de código abierto es buena para el mundo, y por qué, debido a esto, la comunidad de código abierto persistirá a largo plazo.

Por qué la IA de código abierto es buena para los desarrolladores

Cuando hablo con desarrolladores, CEOs y funcionarios gubernamentales de todo el mundo, generalmente escucho los siguientes temas:

Necesitamos entrenar, ajustar y refinar nuestros propios modelos.

Cada organización tiene diferentes necesidades, y diferentes tamaños de modelos pueden satisfacer mejor esas necesidades, entrenados o ajustados con datos específicos. Las tareas en dispositivos y las tareas de clasificación requieren modelos más pequeños, mientras que las tareas más complejas requieren modelos más grandes.

Ahora, podrás usar modelos Llama de vanguardia, continuar entrenándolos con tus propios datos y luego refinarlos a tu modelo de tamaño óptimo - sin que nosotros ni nadie más vea tus datos.

Necesitamos controlar nuestro propio destino y no estar atados a un proveedor de código cerrado.

Muchas organizaciones no quieren depender de modelos que no pueden ejecutar y controlar. No quieren que los proveedores de modelos de código cerrado puedan cambiar sus modelos, cambiar sus términos de uso o incluso dejar de servirlos por completo. Tampoco quieren estar atados a una sola nube que tenga derechos exclusivos sobre un modelo en particular. El código abierto proporciona un ecosistema de herramientas compatible con muchas empresas entre las que puedes cambiar fácilmente.

Necesitamos proteger nuestros datos.

Muchas organizaciones manejan datos sensibles que necesitan protección y no pueden ser transmitidos a modelos de código cerrado a través de APIs en la nube. Otras organizaciones simplemente no confían en los proveedores de modelos de código cerrado con sus datos. El código abierto resuelve estos problemas al permitirte ejecutar modelos donde quieras. Es ampliamente aceptado que el software de código abierto es más seguro porque el desarrollo es más transparente.

Necesitamos un modelo operativo eficiente y asequible.

Los desarrolladores pueden ejecutar inferencias en Llama 3.1 405B en su propia infraestructura a aproximadamente el 50% del costo de usar modelos de código cerrado como GPT-4o para tareas de inferencia de cara al usuario y fuera de línea.

Apostamos por un ecosistema que puede convertirse en un estándar a largo plazo.

Muchas personas ven que el código abierto se desarrolla más rápido que los modelos de código cerrado, y quieren construir la arquitectura de sus sistemas de una manera que les dé la mayor ventaja a largo plazo.

Por qué la IA de código abierto es buena para Meta

El modelo de negocio de Meta es construir las mejores experiencias y servicios para las personas. Para hacer esto, necesitamos asegurarnos de tener siempre acceso a la mejor tecnología, en lugar de estar encerrados en ecosistemas cerrados de competidores que limitarían lo que podemos construir.

Una de mis experiencias formativas es cómo nuestros servicios están limitados por lo que Apple nos permite construir en su plataforma. La forma en que gravan a los desarrolladores, las reglas arbitrarias que aplican y todas las innovaciones de productos que bloquean de ser lanzadas dejan claro que Meta y muchas otras empresas serían libres de construir mejores servicios para las personas si pudiéramos construir las mejores versiones de nuestros productos sin que los competidores puedan limitar lo que podemos construir.

Filosóficamente, esta es la razón principal por la que creo firmemente en construir ecosistemas de código abierto para la próxima generación de computación en IA y RA/RV.

La gente a menudo me pregunta si me preocupa renunciar a la ventaja tecnológica al hacer de código abierto a Llama, pero creo que esto ignora algunas razones importantes:

Primero, para asegurarnos de poder acceder a la mejor tecnología en lugar de estar encerrados en un ecosistema cerrado a largo plazo, Llama necesita evolucionar hacia un ecosistema completo que incluya herramientas, mejoras de eficiencia, optimizaciones de silicio y otras integraciones. Si fuéramos la única empresa que usa Llama, este ecosistema no se desarrollaría y no estaríamos mejor que las variantes cerradas de Unix.

Segundo, espero que la competencia se intensifique a medida que crezca la inteligencia, lo que significa que en ese punto, hacer de código abierto cualquier modelo en particular no renunciará a una ventaja sobre el próximo modelo con mayores ventajas. El camino para que Llama se convierta en el estándar de la industria es a través de competir consistentemente, eficientemente y hacer de código abierto generación tras generación de modelos.

Tercero, una diferencia clave entre Meta y los proveedores de modelos de código cerrado es que