- 通用检查点:大规模分布式训练的高效灵活检查点
分布式训练中现有的检查点方法对于硬件限制来说似乎并不适用,虽然模型并行(即在多个加速器上分割模型状态)是模型扩展的要求。为了解决这个问题,我们提出了一种名为 “通用检查点” 的技术,它在提供高效的检查点创建的同时,使得可以在任意并行策略和硬 - AsyncDiff:通过异步去噪并行化传播模型
利用多设备之间的模型并行性,通过对多个组件进行异步处理,AsyncDiff 显著缩短推理延迟,同时最小程度地影响生成质量。
- PETRA: 并行端到端训练与可逆架构
我们介绍了一种用于并行计算深度模型训练的 PETRA 替代方法,它通过反向传播和单一参数版本的保持来解决权重存储的问题,并在 CIFAR-10、ImageNet32 和 ImageNet 上展示了其与后向传播相比具有竞争性的准确性。
- 云、移动和边缘环境中的分布式学习综述
在深度学习、卷积神经网络和大型语言模型的时代,机器学习模型变得越来越复杂,需要大量的计算资源进行推理和训练。为了解决这个挑战,分布式学习已经成为一种关键方法,通过在各种设备和环境中进行并行化来实现。本调查研究对分布式学习的领域进行了探索,涵 - 通过人工合成的中间标签进行分区神经网络训练
通过将模型划分到多个 GPU 上并生成合成中间标签来训练各个部分,以减少数据通信和保持模型准确性为目标,该研究证实了该方法在减少内存和计算需求的同时实现了类似传统训练方法的测试准确性,从而减轻了训练大型神经网络的资源密集性,为更高效的深度学 - 深度神经网络的高效并行计算中的循环数据并行
通过 Cyclic Data Parallelism 和 Model Parallelism 技术,在训练大型深度学习模型的过程中,减少了内存的需求以及 GPU 的使用,提升了模型的执行效率。
- 分布式基础架构下的模型并行性研究:从理论到 LLM 案例研究
神经网络的主题和研究领域涉及神经网络、模型并行性、操作符图、实施挑战和变压器网络。
- 大规模分布式模型训练的高效并行化布局
通过对大型语言模型的多种训练配置进行全面的消融研究,我们总结出几个关键建议,以实现最高效的训练,例如,我们发现使用微批量大小为 1 通常能实现最高效的训练布局。较大的微批量大小需要激活检查点或更高程度的模型并行性,并且还会导致更大的管道延迟 - Saturn:面向大规模模型深度学习工作负载的优化数据系统
大型语言模型与模型并行化的信息系统架构(SPASE)降低了模型选择运行时间。
- GNNPipe: 使用流水线模型并行加速分布式全图 GNN 训练
采用模型并行而非图并行的分布式全局图神经网络训练方法 GNNPipe,结合基于分块的流水线训练方法以及混合并行性,以减少通信开销并加快训练时间,同时保持相当的模型准确性和收敛速度。
- 基于域分解的预处理策略提升物理知识神经网络训练
该研究提出了一种改进物理信息神经网络 (PINNs) 的训练方法,其中引入了非线性加性和乘性预处理策略以提高常用 L-BFGS 优化器的收敛性,并实现更精确的偏微分方程的解,同时提出了一种模型并行化方法。
- TAP: 通过张量自动并行化加速大规模深度神经网络训练
本文提出了一种模型并行框架 TAP,利用神经网络作为有向无环图的性质,设计了一种图剪枝算法以高效地搜索最佳的数据和张量并行计划,实验表明 TAP 比现有自动并行化框架快 20-160 倍,并且其发现的并行化计划比专家设计的计划具有竞争力。
- 使用小型 GPU 群集训练一个大型语言模型
该研究提出了一种名为 Elixir 的并行异构训练系统,它在操作符的粒度上生成并行化计划,采用分层分布式内存管理方案以加速 GPU 间通信和 CPU-GPU 数据传输,并且实现了新型模型并行化的灵活性和高效性。
- Celeritas: 面向大型数据流图的快速优化器
Celeritas 是一个快速的框架,通过一系列调度算法优化大型模型的设备配置,减少设备配置时间和提高运行效率。
- 天空计算:加速联邦学习中的地理分布式计算
本文提出了一种基于负载均衡的模型并行度框架 Sky Computing,以根据设备的计算能力来分配模型权重,与传统方法相比,Sky Computing 在训练 160 层 BERT 时的训练时间快了 55%。
- CVPR大规模时间视频建模的梯度正向传播
本文介绍了一种名为 Skip-Sideways 的神经网络训练方法,其通过时间跳跃机制和分布式异构设备进行训练,能够有效地提取时间特征以及实现低延迟训练和模型并行化,并在动作识别等领域中获得更好的性能。
- 使用 Megatron-LM 在 GPU 集群上高效训练大规模语言模型
本论文提出了一种新的并行计算方法(并行、管道、数据并行),并探讨了不同并行计算方法之间的权衡取舍,可使模型达到拥有万亿参数的级别,提高了 10%的吞吐量,是现有方法的可比内存占用率。在 3072 个 GPU 上完成了 1 万亿参数模型的训练 - ICMLTeraPipe:用于大规模语言模型训练的令牌级管道并行化
在本研究中,我们提出了一种新的维度,即在单个训练序列中执行流水线并行处理,以用于 Transformer-based 语言模型的高效训练,并开发了一种基于动态规划的算法 TeraPipe,用于进行同步模型并行训练。我们证明,TeraPipe - ZeRO-Offload: 亿级模型训练的民主化
ZeRO-Offload 通过将数据和计算卸载到 CPU,最大化 GPU 内存节省,减少 CPU 计算时间的同时提高算力,解决了大规模模型训练所需的高昂费用,可让普通数据科学家在仅拥有单个 GPU 的情况下训练超过 70 亿参数的模型。
- 序列到序列递归神经网络机器翻译的混合数据 - 模型并行训练
本文提出了一种混合数据模型并行方法用于 Seq2Seq 循环神经网络机器翻译,将模型并行方法应用于 Seq2Seq 模型的 RNN 编码器 - 解码器部分和数据并行方法应用于模型的注意力 - softmax 部分,使用 4 个 GPU 训练