Sep, 2023

FusionAI: 基于大规模消费级 GPU 的分布式训练和部署 LLMs

TL;DR在这篇研究论文中,我们提出了一个分散系统,利用具有隐私保护功能的消费级 GPU 在对大型语言模型进行预训练、推理和微调时发挥潜在的巨大作用。通过采用备用资源池实现计算提供者的动态加入和退出、基于硬件性能的任务调度、抽象化机器学习过程为有向无环图以实现模型和任务的通用性、抽象化中间表示和执行平台以确保各种设备和深度学习框架的兼容性等,我们的性能分析表明,50 个 RTX 3080 GPUs 的吞吐量可与 4 个昂贵的 H100 GPUs 相媲美。