El marco de inferencia de IA distribuida de código abierto exo en GitHub ha obtenido 2.5k estrellas. Permite a los usuarios construir su propio clúster de computación de IA utilizando dispositivos cotidianos como iPhones y iPads en solo minutos.
A diferencia de otros marcos de inferencia distribuida, exo utiliza un método de conexión peer-to-peer (p2p), agregando automáticamente dispositivos al clúster cuando se conectan a la red.
Un desarrollador utilizó exo para conectar dos MacBook Pros y un Mac Studio, logrando una velocidad de cómputo de 110 TFLOPS. El desarrollador está listo para el próximo modelo Llama3-405B, con los oficiales de exo prometiendo soporte desde el día 0.
Exo puede incorporar no solo computadoras sino también iPhones, iPads e incluso Apple Watches en la red de cómputo local. A medida que el marco evoluciona, ya no es exclusivo de Apple, con algunos usuarios agregando teléfonos Android y GPUs 4090 a sus clústeres.
El marco puede configurarse en tan solo 60 segundos. Utiliza conexiones p2p en lugar de una arquitectura maestro-trabajador, uniendo automáticamente los dispositivos en la misma red local a la red de cómputo.
Exo admite diferentes estrategias de partición para la división de modelos entre dispositivos, siendo la predeterminada la partición ponderada de memoria en anillo. Requiere una configuración manual mínima, conectándose automáticamente a dispositivos que se ejecutan en la red local, con soporte futuro para conexiones Bluetooth.
El marco admite una interfaz gráfica llamada tiny chat y tiene una API compatible con OpenAI. Actualmente, exo soporta el marco MLX de Apple y el marco de aprendizaje automático de código abierto tinygrad, con la adaptación de llama.cpp en progreso.
Debido a que la implementación de iOS está retrasada respecto a Python, las versiones móvil y para iPad de exo se han desactivado temporalmente.
La operación local de modelos grandes tiene ventajas en protección de la privacidad, acceso sin conexión y personalización. Algunos argumentan que construir clústeres con dispositivos existentes para la computación de modelos grandes tiene costos a largo plazo más bajos que los servicios en la nube.
Sin embargo, se han planteado preocupaciones sobre la potencia de cómputo de dispositivos más antiguos en comparación con proveedores de servicios profesionales, y el alto costo del hardware de gama alta utilizado en las demostraciones.
El autor del marco aclaró que exo transmite pequeños vectores de activación en lugar de pesos de modelo completos, minimizando el impacto de la latencia de red en el rendimiento.
Aunque todavía está en etapa experimental, el marco aspira a ser tan simple de usar como Dropbox en el futuro. El equipo de exo también ha enumerado algunas limitaciones actuales que planean abordar, ofreciendo recompensas de $100-500 por soluciones.