Домашний AI-кластер: компьютеры и планшеты объединяются для запуска крупной модели с 400 млрд параметров, проект на GitHub получил более 2500 звезд

Проект llama.cpp расширяется для обеспечения совместимости с фреймворками MLX и tinygrad. Эта инициатива направлена на повышение его функциональности и гибкости, позволяя ему работать с большим количеством инструментов и библиотек машинного обучения.

Фреймворк распределенного ИИ-вывода с открытым исходным кодом exo на GitHub набрал 2,5 тысячи звезд. Он позволяет пользователям создавать собственный кластер для вычислений ИИ, используя обычные устройства, такие как iPhone и iPad, всего за несколько минут.

В отличие от других фреймворков распределенного вывода, exo использует метод одноранговых (p2p) соединений, автоматически добавляя устройства в кластер при подключении к сети.

Разработчик использовал exo для соединения двух MacBook Pro и одного Mac Studio, достигнув вычислительной скорости 110 TFLOPS. Разработчик готов к предстоящей модели Llama3-405B, а представители exo обещают поддержку с первого дня.

Exo может включать в локальную вычислительную сеть не только компьютеры, но и iPhone, iPad и даже Apple Watch. По мере развития фреймворка он перестал быть эксклюзивным для Apple, и некоторые пользователи добавляют в свои кластеры телефоны Android и GPU 4090.

Фреймворк можно настроить всего за 60 секунд. Он использует p2p-соединения вместо архитектуры master-worker, автоматически присоединяя устройства в одной локальной сети к вычислительной сети.

Exo поддерживает различные стратегии разделения для разбиения модели между устройствами, по умолчанию используется кольцевое разделение с учетом памяти. Он требует минимальной ручной настройки, автоматически подключаясь к устройствам, работающим в локальной сети, с будущей поддержкой Bluetooth-соединений.

Фреймворк поддерживает графический интерфейс под названием tiny chat и имеет API, совместимый с OpenAI. В настоящее время exo поддерживает фреймворк MLX от Apple и фреймворк машинного обучения с открытым исходным кодом tinygrad, а адаптация llama.cpp находится в процессе разработки.

Из-за отставания реализации iOS от Python, мобильная версия и версия для iPad exo были временно отключены.

Локальная работа больших моделей имеет преимущества в защите конфиденциальности, автономном доступе и персонализированной настройке. Некоторые утверждают, что создание кластеров из существующих устройств для вычислений больших моделей имеет более низкие долгосрочные затраты по сравнению с облачными сервисами.

Однако были высказаны опасения по поводу вычислительной мощности старых устройств по сравнению с профессиональными поставщиками услуг, а также высокой стоимости высококлассного оборудования, используемого в демонстрациях.

Автор фреймворка пояснил, что exo передает небольшие векторы активации, а не целые веса модели, минимизируя влияние задержки сети на производительность.

Хотя фреймворк все еще находится на экспериментальной стадии, в будущем он стремится стать таким же простым в использовании, как Dropbox. Команда exo также перечислила некоторые текущие ограничения, которые они планируют устранить, предлагая вознаграждения в размере 100-500 долларов за решения.

Ссылка на репозиторий GitHub