GitHubのオープンソース分散型AI推論フレームワークexoは2.5kのスターを獲得しました。これにより、ユーザーは数分でiPhoneやiPadなどの日常的なデバイスを使用して独自のAIコンピューティングクラスターを構築できます。
他の分散推論フレームワークとは異なり、exoはピアツーピア(p2p)接続方式を使用し、ネットワークに接続されると自動的にデバイスをクラスターに追加します。
ある開発者がexoを使用して2台のMacBook ProとMac Studioを接続し、110TFLOPSの計算速度を達成しました。開発者は今後登場するLlama3-405Bモデルに備えており、exo公式は初日からのサポートを約束しています。
Exoはコンピューターだけでなく、iPhone、iPad、さらにはApple Watchもローカルコンピューティングネットワークに組み込むことができます。フレームワークの進化に伴い、もはやApple専用ではなくなり、一部のユーザーはAndroidフォンや4090 GPUをクラスターに追加しています。
このフレームワークは最短60秒で設定できます。マスター・ワーカーアーキテクチャではなくp2p接続を使用し、同じローカルネットワーク上のデバイスを自動的にコンピューティングネットワークに参加させます。
Exoはデバイス間のモデル分割に対して異なるパーティショニング戦略をサポートしており、デフォルトはリングメモリ重み付きパーティショニングです。手動設定は最小限で済み、ローカルネットワーク上で実行されているデバイスに自動的に接続し、将来的にはBluetoothでの接続もサポートする予定です。
このフレームワークはtiny chatと呼ばれるグラフィカルインターフェースをサポートし、OpenAI互換のAPIを持っています。現在、exoはAppleのMLXフレームワークとオープンソースの機械学習フレームワークtinygradをサポートしており、llama.cppの適応も進行中です。
iOSの実装がPythonに遅れをとっているため、exoのモバイル版とiPad版は一時的にオフラインになっています。
大規模モデルのローカル運用には、プライバシー保護、オフラインアクセス、個人化カスタマイズの利点があります。既存のデバイスでクラスターを構築して大規模モデル計算を行うことは、クラウドサービスよりも長期的なコストが低いという意見もあります。
しかし、古いデバイスの計算能力がプロのサービスプロバイダーと比較して劣ることや、デモンストレーションで使用されているハイエンドハードウェアの高コストについて懸念が提起されています。
フレームワークの作者は、exoがモデル全体の重みではなく小さな活性化ベクトルを送信するため、ネットワークレイテンシーがパフォーマンスに与える影響を最小限に抑えると説明しています。
まだ実験段階ですが、このフレームワークは将来的にDropboxのように簡単に使えるようになることを目指しています。exoチームは現在の制限事項をリストアップし、解決策に対して100〜500ドルの報奨金を提供しています。