跨弓:使用小批次尺寸在多GPU服务器上扩展深度学习
本文介绍了 FireCaffe,一个可以在 GPU 集群上成功扩展深度神经网络训练的工具,并提出了一些最佳实践方法以帮助比较不同缩放和加速深度神经网络训练方法的进展。在 ImageNet 上训练 GoogLeNet 和 Network-in-Network 时,当集群有 128 个 GPU 时,取得了 47x 和 39x 的加速效果。
Oct, 2015
提出 Poseidon 系统架构用于现有 DL 框架的分布式 GPU 训练,包含三个核心贡献:支持 CPU 和 GPU,改进 GPU 利用和通信平衡的分布式等待无后向算法以及最小化通信开销的结构感知通信协议;在 8 个节点的 GPU 群集上,与最先进的 CPU 分布式系统竞争,获得 22K 数据集上更好的加速比和有竞争力的准确性。
Dec, 2015
该研究通过标准批处理和数据并行技术,在单个节点环境中将吞吐量提高至少5.5倍,并在多节点环境中研究了异步并行化对训练时间的影响,并提出了一种高效的超参数优化器,以选择资源分配方式以最小化收敛所需的总时间。
Jun, 2016
提出了一个用于GPU集群的高度可扩展的深度学习训练系统,其中包括采用混合精度训练的方法、优化极大mini-batch size的方法、采用高度优化的全约约算法等,这些方法的使用将深度学习训练的吞吐量和精度取得了很好的平衡。
Jul, 2018
本文介绍了三个与系统相关的优化方案——分布式批量归一化控制每个副本批量大小、输入管道优化维持模型吞吐量和二维鼓形约减加速梯度求和——将这些优化相结合,在1024芯片TPU v3 Pod上以超过105万张/秒的训练吞吐量,在2.2分钟内将ResNet-50在ImageNet上训练到76.3%的准确度,且没有精度降低。
Nov, 2018
本文介绍了一种深度学习执行引擎Nimble,采用ahead-of-time(AoT)调度技术,可以以尽可能小的调度开销运行GPU任务。与PyTorch, TensorRT和TVM相比,Nimble在加速推断和训练方面表现出较好的性能。
Dec, 2020
本论文提出了一种新的并行计算方法(并行、管道、数据并行),并探讨了不同并行计算方法之间的权衡取舍,可使模型达到拥有万亿参数的级别,提高了10%的吞吐量,是现有方法的可比内存占用率。在3072个GPU上完成了1万亿参数模型的训练,每个GPU的吞吐量达到了理论峰值的52%。
Apr, 2021
本文提出了一种在Intel CPU上优化深度学习模型训练的方法和工具集ProfileDNN以及一个任务优化方法,旨在解决在选择适当硬件时成本和效率之间的权衡问题,并通过几个案例研究探讨了如何使用ProfileDNN和Intel PyTorch扩展来优化模型训练。
Jun, 2022
本研究讨论了基于图神经网络(GNN)的推理系统如何结合低延迟和高吞吐量,提出了一个分布式GPU-based GNN服务系统 靠工作负载指标预测GNN请求的不规则计算特征并管理GPU的使用,利用概率性采样来提高GPU的采样性能并指导特征聚合。通过与现有的GNN方法(DGL和PyG)的比较,Quiver取得了高达35倍的低延迟和8倍的高吞吐量。
May, 2023
研究项目侧重于并行和分布式机器学习算法的开发,特别是优化数据处理和预训练一组包括5个编码解码器LLM(从5.8亿到130亿个参数不等)。我们进行了一项细致的研究,以量化三种机器学习并行性方法之间的关系,特别是探索了微软DeepSpeed Zero Redundancy Optimizer (ZeRO)阶段。
Oct, 2023