DynaPipe: 通过动态管道优化多任务训练
GPipe 是一种管道并行库,它提供了一种高效进行模型并行化的方式,可以将不同子层序列分别放在不同的加速器上,因此可以有效地将各种不同的网络扩展到巨大的规模,并且能够实现快速的线性加速,通过对两个不同任务的训练,证明了 GPipe 的优势。
Nov, 2018
本研究提出了 PipeTransformer 来提高 Transformer 模型的多节点分布式训练效率,该方法通过自动化管线处理和数据并行来动态调整管线和并行策略,从而实现层的冻结和资源分配,结果表明 PipeTransformer 相较于现有算法可以提高 2.4 倍速度。
Feb, 2021
在本研究中,我们提出了一种新的维度,即在单个训练序列中执行流水线并行处理,以用于 Transformer-based 语言模型的高效训练,并开发了一种基于动态规划的算法 TeraPipe,用于进行同步模型并行训练。我们证明,TeraPipe 可以在使用 48 个 p3.16xlarge 实例的 AWS 集群上将最大的包含 1750 亿参数的 GPT-3 模型的训练速度提高 5.0 倍,相比最先进的模型并行方法,具有更细粒度的流水线并行处理。
Feb, 2021
提出了 PiPAD,一种基于管道和并行设计的动态图神经网络 (DGNNs) 训练框架,用于在 GPU 上进行端到端性能优化。在各种数据集上的评估表明,PiPAD 在三种代表性模型上实现了 1.22 倍 - 9.57 倍的超越最先进的 DGNN 框架的加速。
Jan, 2023
该论文探讨了管道并行(Pipeline parallelism)训练神经网络的各种技术,提出了一种简单而健壮的训练方法,名为 PipeMare,可以在保持与同步训练相当的模型质量的情况下提高硬件利用率,允许高效使用细粒度的并行计算。在 ResNet 和 Transformer 网络上进行测试,异步训练允许 PipeMare 使用更少的内存或更高的管道利用率。
Oct, 2019
通过对 BPipe 技术在 GPT-3 和 LLaMA 模型上的性能分析以及对 BPipe 性能评估方法的引入,我们发现了 BPipe 在 GPT-3 和 LLaMA 训练上性能不同的原因,并提出了一种新的估算 BPipe 性能的方法。
Jan, 2024
深度神经网络的管道并行化方法 (GPP) 以及分布式系统 GraphPipe 通过优化微批量进度和并行训练实现了对现有管道并行系统如 PipeDream 和 Piper 的提速和搜索时间的降低。
Jun, 2024
本文提出一种基于多任务学习的神经机器翻译模型,可以在推断过程中自适应不同深度配置,支持 24 种深度配置的解码,相比于传统的模型训练方法以及其他灵活深度模型训练方法(LayerDrop),本方法具有更大的灵活性和更好的性能表现。
Oct, 2020
通过动态神经网络中的 skimming 这个研究方向,可以很好地解决预训练语言模型参数过多的问题,实现神经网络的有效扩展,为处理自然语言提供有效的支持。
Feb, 2022