家用AI集群:个人电脑和平板电脑联合运行400B参数的大型模型,GitHub项目获得2500多个星标

llama.cpp 项目正在进行扩展,以兼容 MLX 和 tinygrad 框架。这一举措旨在增强其功能性和灵活性,使其能够与更多的机器学习工具和库协同工作。

GitHub上的开源分布式AI推理框架exo已获得2.5k星标。它允许用户在几分钟内使用iPhone和iPad等日常设备构建自己的AI计算集群。

与其他分布式推理框架不同,exo使用点对点(p2p)连接方法,当设备连接到网络时自动将其添加到集群中。

一位开发者使用exo连接了两台MacBook Pro和一台Mac Studio,实现了110 TFLOPS的计算速度。该开发者已为即将推出的Llama3-405B模型做好准备,exo官方承诺将在第一时间提供支持。

Exo不仅可以整合计算机,还可以将iPhone、iPad甚至Apple Watch纳入本地计算网络。随着框架的发展,它不再局限于Apple设备,一些用户已将Android手机和4090 GPU添加到他们的集群中。

该框架可以在短短60秒内完成配置。它使用p2p连接而不是主从架构,自动将同一本地网络上的设备加入计算网络。

Exo支持不同的跨设备模型拆分策略,默认使用环形内存加权分区。它只需最少的手动配置,自动连接到运行在本地网络上的设备,未来还将支持蓝牙连接。

该框架支持名为tiny chat的图形界面,并具有与OpenAI兼容的API。目前,exo支持Apple的MLX框架和开源机器学习框架tinygrad,正在进行llama.cpp的适配。

由于iOS实现落后于Python,exo的移动和iPad版本已暂时下线。

本地运行大型模型在隐私保护、离线访问和个性化定制方面具有优势。有人认为,使用现有设备构建集群进行大型模型计算比云服务的长期成本更低。

然而,也有人对较旧设备的计算能力与专业服务提供商相比表示担忧,以及演示中使用的高端硬件成本高昂。

该框架的作者澄清说,exo传输的是小型激活向量而非整个模型权重,最大限度地减少了网络延迟对性能的影响。

虽然仍处于实验阶段,但该框架的目标是在未来变得像Dropbox一样易于使用。exo团队还列出了一些他们计划解决的当前限制,为解决方案提供100-500美元的奖励。

GitHub仓库链接