En la madrugada del 24 de julio, Meta lanzó Llama 3.1, el modelo de código abierto más potente hasta la fecha. Al mismo tiempo, Zuckerberg fue entrevistado por Rowan Cheung, fundador de "The Rundown AI", para discutir Llama 3.1 y sus opiniones sobre el desarrollo de la IA.
Zuckerberg cree que, a largo plazo, el ecosistema creado por los modelos de código abierto es más seguro que los modelos cerrados. Predice que los agentes de IA eventualmente se convertirán en herramientas esenciales para las empresas, al igual que el correo electrónico y las cuentas de redes sociales. Afirma: "Eventualmente, podría haber incluso más agentes de IA que humanos, y la gente interactuará con ellos de diversas maneras. Obviamente, esto también es una enorme oportunidad de negocio".
A continuación, se presentan los principales puntos de la entrevista:
Rowan Cheung: Mark, muchas gracias por conceder esta entrevista. Meta lanzó hoy un importante modelo de IA. ¿Podrías resumir lo que se ha lanzado y su importancia?
Mark Zuckerberg: Hoy lanzamos Llama 3.1, que incluye tres modelos. Es la primera vez que lanzamos un modelo de 405 mil millones de parámetros. Es el modelo de código abierto más complejo hasta la fecha. Es competitivo con algunos de los modelos cerrados líderes e incluso los supera en algunas áreas.
Estoy muy emocionado de ver cómo la gente lo utilizará, especialmente ahora que nuestra política comunitaria permite a las personas usar Llama como modelo maestro para la destilación y el ajuste fino, básicamente para crear cualquier otro modelo.
Además, hemos destilado el modelo de 405 mil millones de parámetros en modelos más nuevos y avanzados de 70 mil millones y 8 mil millones de parámetros. Estos modelos también funcionan muy bien y ofrecen una excelente relación calidad-precio. Estoy ansioso por ver cómo la gente utilizará estos modelos.
Creo que este es un momento importante para la IA de código abierto. He pensado durante bastante tiempo que la IA de código abierto se convertirá en el estándar de la industria, y creo que seguirá el camino de Linux.
Antes de que Linux se popularizara, muchas empresas querían tener su propia versión cerrada de Unix, y no había proyectos de código abierto complejos. La gente pensaba que el modelo de desarrollo cerrado era la única forma de crear productos complejos.
Al principio, Linux se estableció sobre la base de ser más barato y personalizable para los desarrolladores. A medida que el ecosistema creció, recibió más escrutinio y se volvió más seguro y sofisticado. Más socios construyeron más funciones sobre Linux, lo que finalmente lo hizo tan útil como otros Unix cerrados.
Ahora, creo que Llama 3.1 tiene la oportunidad de convertirse en el estándar de la IA de código abierto, haciendo que el código abierto sea el estándar de la industria de la IA. Incluso si aún no supera a los modelos cerrados en rendimiento, tiene grandes ventajas en términos de costo y personalización. Creo que estas son ventajas que los desarrolladores aprovecharán.
Nos estamos enfocando en construir un ecosistema de socios alrededor de esto, y veremos muchas funcionalidades diferentes construidas sobre él.
Rowan Cheung: He visto todos los puntos de referencia y los resultados son increíbles. Obviamente, este es el primer modelo de vanguardia de código abierto de 405 mil millones de parámetros. ¿Hay casos de uso prácticos específicos que estés particularmente emocionado de ver que la gente construya con este modelo?
Mark Zuckerberg: Lo que más me emociona ver es que la gente lo use para destilar y ajustar sus propios modelos. Como dijiste, este es el primer modelo de vanguardia de código abierto, pero no es el primer modelo de vanguardia. Ya ha habido otros modelos con estas capacidades.
La gente querrá hacer inferencias directamente en el modelo de 405 mil millones de parámetros porque estimamos que es un 50% más barato que GPT-4o. Eso tendrá algún impacto para mucha gente.
Sin embargo, creo que lo realmente novedoso de este modelo es que tiene pesos de código abierto, lo que permite destilarlo a cualquier tamaño que desees, usarlo para la generación de datos sintéticos y como modelo maestro.
Para el futuro, no creemos que sea una cosa única. Es como, la visión de OpenAI es construir una "gran IA", y Anthropic y Google tienen visiones similares.
Pero esa nunca fue nuestra visión. Nuestra visión es que el futuro debería tener muchos modelos diferentes. Creo que cada startup, gran empresa y cada gobierno querrá tener su propio modelo personalizado.
Cuando los sistemas cerrados eran mucho mejores que los de código abierto, era más conveniente usar modelos cerrados. Aunque los modelos de código abierto se podían personalizar, había una brecha en el rendimiento.
Ahora es diferente. La brecha de rendimiento con los modelos de código abierto básicamente se ha cerrado. Verás que más personas están motivadas para personalizar y construir modelos que se ajusten a sus necesidades, entrenados con sus propios datos, a la escala adecuada para ellos.
También tendrán las herramientas para hacerlo, porque empresas como Amazon AWS y Databricks están construyendo suites de servicios completas para destilar y ajustar modelos de código abierto.
En mi opinión, esta es la nueva situación ahora. Estamos muy emocionados de ver hasta dónde se puede llevar esta tendencia. Es una nueva capacidad en el mundo porque nunca antes había habido un modelo de código abierto o de pesos abiertos de este nivel de sofisticación.
Rowan Cheung: Esto es realmente importante. ¿Cómo van a educar a los desarrolladores sobre el uso de estas herramientas? Y más ampliamente, ¿tiene Meta planes o estrategias para educar al mundo sobre los modelos de código abierto y su importancia?
Mark Zuckerberg: Antes de Llama 3.1, la razón fundamental por la que Meta invirtió en esto fue para asegurarnos de que pudiéramos tener acceso a modelos de vanguardia. Debido a nuestra historia, especialmente en móviles, no queríamos depender de la tecnología base de un competidor. Así que construimos modelos para nosotros mismos.
Antes de Llama 3.1, instintivamente pensamos que si lo hacíamos de código abierto, atraería a una comunidad para crecer a su alrededor, expandir sus capacidades y hacerlo más valioso para todos, incluidos nosotros mismos. Porque al final, no es solo una tecnología, es un ecosistema. Para que sea más útil para nosotros, necesita tener un ecosistema amplio.
Un gran cambio con Llama 3.1 es que ya no estamos solo construyendo para nosotros mismos y luego lanzándolo para que los desarrolladores lo usen, sino que estamos siendo más proactivos en la construcción de asociaciones para asegurarnos de que haya todo un ecosistema de empresas que puedan hacer cosas interesantes con este modelo y servir a los desarrolladores de maneras que nosotros no podemos.
No somos un proveedor de servicios en la nube, no somos AWS, Google o Azure, así que los desarrolladores no vendrán a nosotros para construir sus cosas, pero queremos asegurarnos de que todos estos proveedores de servicios en la nube puedan usar bien este modelo.
Esto no solo implica el alojamiento y la inferencia, sino también algunas nuevas capacidades como la destilación y el ajuste fino, que no son tan fáciles de hacer con modelos cerrados, así que tenemos que hacer un trabajo específico con los socios para habilitar estas capacidades.
Al mismo tiempo, habrá empresas como Groq que se centran en la inferencia de latencia ultra baja. Estoy encantado de poder entregárselo a Groq, que ahora lo está usando para construir cosas nuevas.
Y luego hay una serie de empresas como Dell, Scale AI, Deloitte o Accenture que trabajan con empresas globales en la implementación de tecnología. Creo que estas empresas ayudarán a construir modelos personalizados.
Ya sean grandes empresas o gobiernos, muchas compañías quieren tener sus propios modelos y poder entrenarlos con sus propios datos. Muchas empresas no quieren pasar sus datos a través de una API a Google u OpenAI, y no es porque estas empresas tengan problemas de privacidad.
Es más como la razón por la que a la gente le gusta usar el cifrado de extremo a extremo de WhatsApp, quieren que sea estructuralmente seguro por diseño y poder mantener sus datos en sus propias manos.
Creo que habrá un mercado que se construirá alrededor de esto también. Estoy muy emocionado por eso.
Esta vez hemos sido más proactivos en la construcción del ecosistema porque creo que es la forma en que crecerá y creará más valor para todos.
Rowan Cheung: Me encanta la estrecha conexión con la comunidad de desarrolladores. Yo mismo soy parte de la comunidad y sé que la gente realmente necesita estos modelos privados y locales. Pasando a tu carta abierta, además del anuncio de Meta, publicaste una carta cuya primera parte se centra en los beneficios del código abierto para los desarrolladores, lo cual parece muy acertado. ¿Puedes hablar más sobre el impacto más amplio de la IA de código abierto en la sociedad?
Mark Zuckerberg: Mi punto de vista es que el código abierto es una parte importante para lograr un buen futuro con la IA. La IA traerá muchas mejoras en productividad y creatividad, y esperemos que también nos ayude a hacer investigación y demás.
Creo que el código abierto es una parte importante para asegurar que la IA pueda beneficiar a todos y que todos puedan usarla, en lugar de que la IA esté encerrada en unas pocas grandes empresas.
Al mismo tiempo, creo que el código abierto será una forma más segura y confiable de desarrollar IA.
Hay un debate ahora sobre la seguridad del código abierto - "¿Es realmente seguro el código abierto?"
Mi punto de vista es diferente. Creo que el código abierto no solo es seguro, sino que es más seguro que el desarrollo cerrado.
Podemos dividir los riesgos en "no intencionados" e "intencionados". Los riesgos "no intencionados" son cuando el sistema se sale de control de alguna manera, que es el escenario de la IA fuera de control en la mayoría de las historias de ciencia ficción.
Creo que el código abierto es más seguro en este aspecto porque hay más escrutinio, más transparencia. Todos los desarrolladores que lo usan también tendrán pautas de seguridad y herramientas de seguridad, y habrá mucha presión de escrutinio y pruebas, al igual que con el software de código abierto tradicional. Los problemas se descubrirán y resolverán más rápidamente en comparación con los modelos cerrados.