Meta lança modelo de linguagem de código aberto com 405 bilhões de parâmetros: Llama 3.1 oficialmente disponível

A seguir está a carta aberta de Zuckerberg, traduzida pelo "AI Emergence":

"IA de Código Aberto é o Caminho a Seguir"

Nos primeiros dias da computação de alto desempenho, as principais empresas de tecnologia da época investiram pesadamente no desenvolvimento de suas próprias versões fechadas do Unix. Na época, era difícil imaginar qualquer outra forma de desenvolver um software tão avançado.

No entanto, o Linux de código aberto acabou se tornando popular - inicialmente porque permitia que os desenvolvedores modificassem seu código como quisessem e era mais barato; com o tempo, tornou-se mais avançado, mais seguro e tinha um ecossistema muito mais amplo suportando mais recursos do que qualquer Unix fechado. Hoje, o Linux é o padrão da indústria para computação em nuvem e os sistemas operacionais que executam a maioria dos dispositivos móveis - todos nós nos beneficiamos de seus produtos superiores.

Acredito que a inteligência artificial evoluirá de maneira semelhante. Hoje, algumas empresas de tecnologia estão desenvolvendo modelos fechados líderes. Mas o código aberto está rapidamente fechando essa lacuna. No ano passado, o Llama 2 só podia competir com modelos de gerações mais antigas que ficavam para trás. Este ano, o Llama 3 compete com modelos de ponta e lidera em algumas áreas. A partir do próximo ano, esperamos que os futuros Llamas sejam os mais avançados do setor. Mas mesmo antes disso, o Llama já está liderando em abertura, modificabilidade e eficiência de custos.

Hoje, estamos dando o próximo passo para tornar a IA de código aberto o padrão da indústria. Estamos lançando o Llama 3.1 405B - o primeiro modelo de IA de código aberto em níveis líderes da indústria - junto com novos e aprimorados modelos Llama 3.1 70B e 8B. Além de ter melhor custo/desempenho em comparação com modelos de código fechado, o fato de o modelo 405B ser de código aberto o tornará a melhor escolha para ajuste fino e extração de modelos menores.

Além de lançar esses modelos, estamos nos associando a uma série de empresas para desenvolver um ecossistema mais amplo. Amazon, Databricks e Nvidia estão lançando suítes completas de serviços para apoiar os desenvolvedores no ajuste fino e refinamento de seus próprios modelos. Empresas inovadoras como a Groq (uma startup de chips de IA) construíram serviços de inferência de baixa latência e baixo custo para todos os novos modelos.

Esses modelos estarão disponíveis em todas as principais nuvens, incluindo AWS, Azure, Google, Oracle e mais. Scale.AI, Dell, Deloitte e outros estão prontos para ajudar as empresas a implantar o Llama e treinar modelos personalizados usando seus próprios dados. À medida que a comunidade cresce e mais empresas desenvolvem novos serviços, podemos coletivamente fazer do Llama o padrão da indústria e trazer os benefícios da IA para todos.

A Meta está comprometida com a IA de código aberto. Vou explicar por que acredito que o código aberto é a melhor pilha de desenvolvimento para as pessoas, por que disponibilizar o Llama como código aberto é bom para a Meta, por que a IA de código aberto é boa para o mundo e por que, devido a isso, a comunidade de código aberto persistirá a longo prazo.

Por que a IA de Código Aberto é Boa para os Desenvolvedores

Quando converso com desenvolvedores, CEOs e funcionários do governo ao redor do mundo, geralmente ouço os seguintes temas:

Precisamos treinar, ajustar e refinar nossos próprios modelos.

Cada organização tem necessidades diferentes, e modelos de tamanhos diferentes podem atender melhor a essas necessidades, treinados ou ajustados com dados específicos. Tarefas em dispositivos e tarefas de classificação requerem modelos menores, enquanto tarefas mais complexas requerem modelos maiores.

Agora, você poderá usar modelos Llama de ponta, continuar treinando-os com seus próprios dados e depois refiná-los para o tamanho ideal do seu modelo - sem que nós ou qualquer outra pessoa veja seus dados.

Precisamos controlar nosso próprio destino e não ficar vinculados a um fornecedor de código fechado.

Muitas organizações não querem depender de modelos que não podem executar e controlar. Elas não querem que os provedores de modelos de código fechado possam mudar seus modelos, alterar seus termos de uso ou até mesmo parar de atendê-los completamente. Elas também não querem ficar presas a uma única nuvem que tenha direitos exclusivos sobre um determinado modelo. O código aberto fornece um ecossistema de ferramentas compatíveis com muitas empresas entre as quais você pode alternar facilmente.

Precisamos proteger nossos dados.

Muitas organizações lidam com dados sensíveis que precisam de proteção e não podem ser transmitidos para modelos de código fechado via APIs em nuvem. Outras organizações simplesmente não confiam nos provedores de modelos de código fechado com seus dados. O código aberto resolve esses problemas permitindo que você execute modelos onde quiser. É amplamente aceito que o software de código aberto é mais seguro porque o desenvolvimento é mais transparente.

Precisamos de um modelo operacional eficiente e acessível.

Os desenvolvedores podem executar inferência no Llama 3.1 405B em sua própria infraestrutura a cerca de 50% do custo de usar modelos de código fechado como o GPT-4o para tarefas de inferência voltadas para o usuário e offline.

Estamos apostando em um ecossistema que pode se tornar um padrão de longo prazo.

Muitas pessoas veem o código aberto se desenvolvendo mais rápido do que os modelos de código fechado, e querem construir a arquitetura de seus sistemas de uma maneira que lhes dê a maior vantagem a longo prazo.

Por que a IA de Código Aberto é Boa para a Meta

O modelo de negócios da Meta é construir as melhores experiências e serviços para as pessoas. Para fazer isso, precisamos garantir que sempre tenhamos acesso à melhor tecnologia, em vez de ficarmos presos aos ecossistemas fechados dos concorrentes que limitariam o que podemos construir.

Uma das minhas experiências formativas é como nossos serviços são limitados pelo que a Apple nos permite construir em sua plataforma. A forma como eles taxam os desenvolvedores, as regras arbitrárias que aplicam e todas as inovações de produtos que impedem de serem lançadas deixam claro que a Meta e muitas outras empresas estariam livres para construir melhores serviços para as pessoas se pudéssemos construir as melhores versões de nossos produtos sem que os concorrentes pudessem limitar o que podemos construir.

Filosoficamente, esta é a principal razão pela qual acredito tão firmemente na construção de ecossistemas de código aberto para a próxima geração de computação em IA e RA/RV.

As pessoas frequentemente me perguntam se estou preocupado em abrir mão da vantagem tecnológica ao disponibilizar o Llama como código aberto, mas acho que isso ignora algumas razões importantes:

Primeiro, para garantir que possamos acessar a melhor tecnologia em vez de ficarmos presos a um ecossistema fechado a longo prazo, o Llama precisa evoluir para um ecossistema completo, incluindo ferramentas, melhorias de eficiência, otimizações de silício e outras integrações. Se fôssemos a única empresa usando o Llama, esse ecossistema não se desenvolveria e não estaríamos em melhor situação do que as variantes fechadas do Unix.

Segundo, espero que a competição se intensifique à medida que a inteligência cresce, o que significa que, nesse ponto, disponibilizar qualquer modelo específico como código aberto não abrirá mão de uma vantagem sobre o próximo modelo com maiores vantagens. O caminho para o Llama se tornar o padrão da indústria é através da competição consistente, eficiente e disponibilização como código aberto geração após geração de modelos.

Terceiro, uma diferença fundamental entre a Meta e os provedores de modelos de código fechado é que