Hulk: 用于优化区域分布式计算系统的图神经网络
本文提出的图并行算法可在多个 GPU 上分布输入图,从而实现训练数十亿个参数的大型 GNN, 该方法在大规模开放铂族催化剂的数据集上取得了新的最先进结果。
Mar, 2022
这篇综述论文分析了分布式图神经网络训练的三个挑战以及通过四类优化技术解决这些挑战的方法:GNN 数据分区、GNN 批量生成、GNN 执行模式和 GNN 通信协议。最后,本文总结了现有的多 GPU、GPU 集群和 CPU 集群的分布式 GNN 系统,并就可伸缩 GNNs 的未来方向进行了讨论。
Nov, 2022
Holmes 是一个专门为 LLMs 设计的训练框架,通过巧妙构建数据和模型并行策略,在异构 NIC 环境下实现了可扩展性,并在大多数情况下达到接近 RDMA 网络性能的学习效率,同时与其他主流 LLM 框架无缝集成。
Dec, 2023
该论文提出了一种异步分布式训练方法,利用互联网连接的具有有限资源的普通异构个人电脑的计算能力,在大型现代深度学习模型上取得了良好的性能指标,通过将计算节点高效地组织成具有相似数据传输速度和计算能力的集群,避免了每个节点承载整个模型,并采用并行多环全局参数平均方法实现全局参数平均。同时,论文在异步 SGD 损失函数上进行了解析,推导出了收敛速度的最优复杂度以及参与集群数量的线性加速和时滞参数的界.
Jan, 2024
本论文提出了一种新的并行计算方法(并行、管道、数据并行),并探讨了不同并行计算方法之间的权衡取舍,可使模型达到拥有万亿参数的级别,提高了 10%的吞吐量,是现有方法的可比内存占用率。在 3072 个 GPU 上完成了 1 万亿参数模型的训练,每个 GPU 的吞吐量达到了理论峰值的 52%。
Apr, 2021
该论文提出了一种基于 SpecTrain 的管道模型并行执行方法,可以在保持训练准确性的前提下,实现高 GPU 利用率,相比数据并行法可提高 8.91 倍的速度。
Sep, 2018
本文研究了 Deep Learning 中在协作训练上的瓶颈,提出了一种适用于协作训练的新算法框架,并在实际条件下展示了该方法对 SwAV 和 ALBERT 的预训练效果,结果表明该方法的性能与传统设置相当,成本仅为传统设置的一小部分。最后,提供了一个由 40 名参与者组成的成功的协作语言模型预训练的详细报告。
Jun, 2021
研究项目侧重于并行和分布式机器学习算法的开发,特别是优化数据处理和预训练一组包括 5 个编码解码器 LLM(从 5.8 亿到 130 亿个参数不等)。我们进行了一项细致的研究,以量化三种机器学习并行性方法之间的关系,特别是探索了微软 DeepSpeed Zero Redundancy Optimizer (ZeRO) 阶段。
Oct, 2023