O framework de inferência de IA distribuída de código aberto exo no GitHub alcançou 2,5 mil estrelas. Ele permite que os usuários construam seu próprio cluster de computação de IA usando dispositivos comuns como iPhones e iPads em apenas minutos.
Diferentemente de outros frameworks de inferência distribuída, o exo usa um método de conexão ponto a ponto (p2p), adicionando automaticamente dispositivos ao cluster quando conectados à rede.
Um desenvolvedor usou o exo para conectar dois MacBook Pros e um Mac Studio, alcançando uma velocidade de computação de 110 TFLOPS. O desenvolvedor está pronto para o próximo modelo Llama3-405B, com os oficiais do exo prometendo suporte no dia 0.
O exo pode incorporar não apenas computadores, mas também iPhones, iPads e até Apple Watches na rede de computação local. À medida que o framework evolui, ele não é mais exclusivo da Apple, com alguns usuários adicionando telefones Android e GPUs 4090 aos seus clusters.
O framework pode ser configurado em apenas 60 segundos. Ele usa conexões p2p em vez de uma arquitetura mestre-trabalhador, juntando automaticamente dispositivos na mesma rede local à rede de computação.
O exo suporta diferentes estratégias de particionamento para divisão de modelos entre dispositivos, sendo o padrão o particionamento em anel ponderado por memória. Requer configuração manual mínima, conectando-se automaticamente a dispositivos em execução na rede local, com suporte futuro para conexões Bluetooth.
O framework suporta uma interface gráfica chamada tiny chat e tem uma API compatível com OpenAI. Atualmente, o exo suporta o framework MLX da Apple e o framework de aprendizado de máquina de código aberto tinygrad, com adaptação do llama.cpp em andamento.
Devido à implementação do iOS estar atrasada em relação ao Python, as versões móveis e para iPad do exo foram temporariamente retiradas do ar.
A operação local de grandes modelos tem vantagens na proteção de privacidade, acesso offline e personalização. Alguns argumentam que construir clusters com dispositivos existentes para computação de grandes modelos tem custos a longo prazo menores que serviços em nuvem.
No entanto, foram levantadas preocupações sobre o poder de computação de dispositivos mais antigos em comparação com provedores de serviços profissionais, e o alto custo do hardware de ponta usado nas demonstrações.
O autor do framework esclareceu que o exo transmite pequenos vetores de ativação em vez de pesos de modelo inteiros, minimizando o impacto da latência de rede no desempenho.
Embora ainda esteja em estágio experimental, o framework visa se tornar tão simples de usar quanto o Dropbox no futuro. A equipe do exo também listou algumas limitações atuais que planejam abordar, oferecendo recompensas de $100-500 por soluções.