Summary
我建立了一個由5台Mac Studio組成的AI超級電腦集群,目的是運行最大和最強大的AI模型,如llama 3.1405 B模型。雖然單台Mac Studio已經可以運行較小的AI模型,但要運行更大的模型需要更多的計算資源。我使用了XO Labs軟體來連接和管理這個5台Mac Studio的集群,並嘗試運行了不同大小的AI模型。過程中遇到了網路頻寬瓶頸的問題,但最終還是成功運行了llama 3.1405 B這個巨大的AI模型。此外,我還測試了使用Thunderbolt連接集群的效果,以及將XO Labs與Fabric專案整合的方式。
Highlights

我使用了5台M2 Ultra Mac Studio,每台64GB統一記憶體,組成一個AI計算集群

為了連接這5台Mac,我使用了10Gbps以太網交換機,但頻寬仍然是一個瓶頸

我測試了使用Thunderbolt連接集群,可以提高頻寬,但仍有一些限制

我成功運行了llama 3.1405 B這個405億參數的巨大AI模型,雖然速度較慢,但展現了Mac Studio的強大潛力

我將XO Labs與Fabric專案整合,可以更方便地使用XO Labs提供的API