GitHub 上的開源分散式 AI 推論框架 exo 已獲得 2.5k 星。它允許用戶在幾分鐘內使用日常設備如 iPhone 和 iPad 建立自己的 AI 計算集群。
與其他分散式推論框架不同,exo 使用點對點(p2p)連接方法,當設備連接到網絡時自動將其添加到集群中。
一位開發者使用 exo 連接了兩台 MacBook Pro 和一台 Mac Studio,實現了 110 TFLOPS 的計算速度。該開發者已為即將推出的 Llama3-405B 模型做好準備,exo 官方承諾將在第一時間支持。
Exo 不僅可以將電腦,還可以將 iPhone、iPad 甚至 Apple Watch 納入本地計算網絡。隨著框架的發展,它不再僅限於 Apple 設備,一些用戶已將 Android 手機和 4090 GPU 加入他們的集群。
該框架可在短短 60 秒內完成配置。它使用 p2p 連接而非主從架構,自動將同一本地網絡上的設備加入計算網絡。
Exo 支持不同的跨設備模型分割策略,默認為環形記憶體加權分割。它只需最少的手動配置,自動連接到運行在本地網絡上的設備,未來還將支持藍牙連接。
該框架支持名為 tiny chat 的圖形界面,並具有與 OpenAI 兼容的 API。目前,exo 支持 Apple 的 MLX 框架和開源機器學習框架 tinygrad,正在進行 llama.cpp 的適配。
由於 iOS 實現落後於 Python,exo 的移動和 iPad 版本已暫時下線。
本地運行大型模型在隱私保護、離線訪問和個性化定制方面具有優勢。有人認為,使用現有設備建立集群進行大型模型計算比雲服務的長期成本更低。
然而,也有人對較舊設備的計算能力與專業服務提供商相比表示擔憂,以及演示中使用的高端硬件成本高昂。
該框架的作者澄清,exo 傳輸的是小型激活向量而非整個模型權重,最大限度地減少了網絡延遲對性能的影響。
雖然仍處於實驗階段,但該框架的目標是在未來變得像 Dropbox 一樣易於使用。exo 團隊還列出了一些他們計劃解決的當前限制,為解決方案提供 100-500 美元的獎勵。