Le framework d'inférence IA distribué open-source exo sur GitHub a obtenu 2,5k étoiles. Il permet aux utilisateurs de construire leur propre cluster de calcul IA en utilisant des appareils quotidiens comme les iPhones et les iPads en quelques minutes.
Contrairement à d'autres frameworks d'inférence distribués, exo utilise une méthode de connexion pair-à-pair (p2p), ajoutant automatiquement les appareils au cluster lorsqu'ils sont connectés au réseau.
Un développeur a utilisé exo pour connecter deux MacBook Pro et un Mac Studio, atteignant une vitesse de calcul de 110 TFLOPS. Le développeur est prêt pour le prochain modèle Llama3-405B, les officiels d'exo promettant un support dès le jour 0.
Exo peut incorporer non seulement des ordinateurs mais aussi des iPhones, des iPads et même des Apple Watches dans le réseau de calcul local. À mesure que le framework évolue, il n'est plus exclusif à Apple, certains utilisateurs ajoutant des téléphones Android et des GPU 4090 à leurs clusters.
Le framework peut être configuré en aussi peu que 60 secondes. Il utilise des connexions p2p au lieu d'une architecture maître-travailleur, joignant automatiquement les appareils sur le même réseau local au réseau de calcul.
Exo supporte différentes stratégies de partitionnement pour la division de modèles entre appareils, la stratégie par défaut étant le partitionnement en anneau pondéré par la mémoire. Il nécessite une configuration manuelle minimale, se connectant automatiquement aux appareils fonctionnant sur le réseau local, avec un support futur pour les connexions Bluetooth.
Le framework supporte une interface graphique appelée tiny chat et dispose d'une API compatible OpenAI. Actuellement, exo supporte le framework MLX d'Apple et le framework d'apprentissage automatique open-source tinygrad, avec une adaptation de llama.cpp en cours.
En raison du retard de l'implémentation iOS par rapport à Python, les versions mobiles et iPad d'exo ont été temporairement mises hors ligne.
L'opération locale de grands modèles présente des avantages en termes de protection de la vie privée, d'accès hors ligne et de personnalisation. Certains soutiennent que la construction de clusters avec des appareils existants pour le calcul de grands modèles a des coûts à long terme inférieurs aux services cloud.
Cependant, des inquiétudes ont été soulevées concernant la puissance de calcul des appareils plus anciens par rapport aux fournisseurs de services professionnels, et le coût élevé du matériel haut de gamme utilisé dans les démonstrations.
L'auteur du framework a précisé qu'exo transmet de petits vecteurs d'activation plutôt que des poids de modèle entiers, minimisant l'impact de la latence réseau sur les performances.
Bien qu'encore au stade expérimental, le framework vise à devenir aussi simple à utiliser que Dropbox à l'avenir. L'équipe exo a également listé certaines limitations actuelles qu'ils prévoient d'aborder, offrant des primes de 100 à 500 dollars pour des solutions.