Dec, 2022

使用小型 GPU 群集训练一个大型语言模型

TL;DR该研究提出了一种名为 Elixir 的并行异构训练系统,它在操作符的粒度上生成并行化计划,采用分层分布式内存管理方案以加速 GPU 间通信和 CPU-GPU 数据传输,并且实现了新型模型并行化的灵活性和高效性。