Фреймворк распределенного ИИ-вывода с открытым исходным кодом exo на GitHub набрал 2,5 тысячи звезд. Он позволяет пользователям создавать собственный кластер для вычислений ИИ, используя обычные устройства, такие как iPhone и iPad, всего за несколько минут.
В отличие от других фреймворков распределенного вывода, exo использует метод одноранговых (p2p) соединений, автоматически добавляя устройства в кластер при подключении к сети.
Разработчик использовал exo для соединения двух MacBook Pro и одного Mac Studio, достигнув вычислительной скорости 110 TFLOPS. Разработчик готов к предстоящей модели Llama3-405B, а представители exo обещают поддержку с первого дня.
Exo может включать в локальную вычислительную сеть не только компьютеры, но и iPhone, iPad и даже Apple Watch. По мере развития фреймворка он перестал быть эксклюзивным для Apple, и некоторые пользователи добавляют в свои кластеры телефоны Android и GPU 4090.
Фреймворк можно настроить всего за 60 секунд. Он использует p2p-соединения вместо архитектуры master-worker, автоматически присоединяя устройства в одной локальной сети к вычислительной сети.
Exo поддерживает различные стратегии разделения для разбиения модели между устройствами, по умолчанию используется кольцевое разделение с учетом памяти. Он требует минимальной ручной настройки, автоматически подключаясь к устройствам, работающим в локальной сети, с будущей поддержкой Bluetooth-соединений.
Фреймворк поддерживает графический интерфейс под названием tiny chat и имеет API, совместимый с OpenAI. В настоящее время exo поддерживает фреймворк MLX от Apple и фреймворк машинного обучения с открытым исходным кодом tinygrad, а адаптация llama.cpp находится в процессе разработки.
Из-за отставания реализации iOS от Python, мобильная версия и версия для iPad exo были временно отключены.
Локальная работа больших моделей имеет преимущества в защите конфиденциальности, автономном доступе и персонализированной настройке. Некоторые утверждают, что создание кластеров из существующих устройств для вычислений больших моделей имеет более низкие долгосрочные затраты по сравнению с облачными сервисами.
Однако были высказаны опасения по поводу вычислительной мощности старых устройств по сравнению с профессиональными поставщиками услуг, а также высокой стоимости высококлассного оборудования, используемого в демонстрациях.
Автор фреймворка пояснил, что exo передает небольшие векторы активации, а не целые веса модели, минимизируя влияние задержки сети на производительность.
Хотя фреймворк все еще находится на экспериментальной стадии, в будущем он стремится стать таким же простым в использовании, как Dropbox. Команда exo также перечислила некоторые текущие ограничения, которые они планируют устранить, предлагая вознаграждения в размере 100-500 долларов за решения.