Heimischer KI-Cluster: Computer und Tablets arbeiten zusammen, um 400B-Parameter-Großmodell auszuführen, GitHub-Projekt erhält über 2500 Sterne

Das llama.cpp-Projekt wird erweitert, um Kompatibilität mit den MLX- und tinygrad-Frameworks zu erreichen. Diese Initiative zielt darauf ab, seine Funktionalität und Flexibilität zu verbessern, damit es mit einer größeren Anzahl von Machine-Learning-Tools und -Bibliotheken zusammenarbeiten kann.

Das Open-Source-Framework für verteilte KI-Inferenz exo auf GitHub hat 2,5k Sterne erreicht. Es ermöglicht Benutzern, in nur wenigen Minuten ihren eigenen KI-Rechencluster mit alltäglichen Geräten wie iPhones und iPads aufzubauen.

Im Gegensatz zu anderen verteilten Inferenz-Frameworks verwendet exo eine Peer-to-Peer (P2P) Verbindungsmethode und fügt Geräte automatisch zum Cluster hinzu, wenn sie mit dem Netzwerk verbunden sind.

Ein Entwickler nutzte exo, um zwei MacBook Pros und ein Mac Studio zu verbinden und erreichte eine Rechengeschwindigkeit von 110 TFLOPS. Der Entwickler ist bereit für das kommende Llama3-405B-Modell, wobei exo-Offizielle eine Unterstützung ab Tag 0 versprechen.

Exo kann nicht nur Computer, sondern auch iPhones, iPads und sogar Apple Watches in das lokale Rechennetzwerk einbinden. Mit der Weiterentwicklung des Frameworks ist es nicht mehr Apple-exklusiv, einige Benutzer fügen ihren Clustern Android-Telefone und 4090-GPUs hinzu.

Das Framework kann in nur 60 Sekunden konfiguriert werden. Es verwendet P2P-Verbindungen anstelle einer Master-Worker-Architektur und fügt Geräte im selben lokalen Netzwerk automatisch zum Rechennetzwerk hinzu.

Exo unterstützt verschiedene Partitionierungsstrategien für die geräteübergreifende Modellaufteilung, wobei die Standardeinstellung die ringförmige speichergewichtete Partitionierung ist. Es erfordert minimale manuelle Konfiguration und verbindet sich automatisch mit Geräten im lokalen Netzwerk, wobei zukünftig auch Bluetooth-Verbindungen unterstützt werden sollen.

Das Framework unterstützt eine grafische Oberfläche namens tiny chat und verfügt über eine OpenAI-kompatible API. Derzeit unterstützt exo Apples MLX-Framework und das Open-Source-Machine-Learning-Framework tinygrad, wobei die Anpassung an llama.cpp in Arbeit ist.

Aufgrund der verzögerten iOS-Implementierung im Vergleich zu Python wurden die mobilen und iPad-Versionen von exo vorübergehend offline genommen.

Der lokale Betrieb großer Modelle bietet Vorteile beim Datenschutz, Offline-Zugriff und bei der personalisierten Anpassung. Einige argumentieren, dass der Aufbau von Clustern mit vorhandenen Geräten für die Berechnung großer Modelle langfristig kostengünstiger ist als Cloud-Dienste.

Es wurden jedoch Bedenken hinsichtlich der Rechenleistung älterer Geräte im Vergleich zu professionellen Dienstleistern und der hohen Kosten für die in Demonstrationen verwendete High-End-Hardware geäußert.

Der Autor des Frameworks stellte klar, dass exo kleine Aktivierungsvektoren überträgt und nicht ganze Modellgewichte, wodurch der Einfluss der Netzwerklatenz auf die Leistung minimiert wird.

Obwohl sich das Framework noch in der experimentellen Phase befindet, soll es in Zukunft so einfach zu bedienen sein wie Dropbox. Das exo-Team hat auch einige aktuelle Einschränkungen aufgelistet, die sie beheben möchten, und bietet Prämien von 100-500 Dollar für Lösungen an.

GitHub-Repository-Link