本研究提出了一种基于最佳批处理按输入序列长度和数据并行化的高效循环神经网络训练算法,以在线手写识别任务为例,通过比较不同数量桶的基准训练性能和提出的解决方案,考察了墙钟时间、纪元数和验证损失值等方面的评估结果。
Aug, 2017
通过对大型语言模型的多种训练配置进行全面的消融研究,我们总结出几个关键建议,以实现最高效的训练,例如,我们发现使用微批量大小为 1 通常能实现最高效的训练布局。较大的微批量大小需要激活检查点或更高程度的模型并行性,并且还会导致更大的管道延迟。我们最高效的配置使得在一系列模型规模上实现了最先进的训练效率结果,尤其是在训练 13B 模型时,模型 FLOPs 利用率达到了 70.5%。
Nov, 2023
本文研究了增加批次大小对神经网络训练时间以及模型性能的影响,并发现不同的工作负载之间存在巨大的差异,并且不发现增加批次大小会降低模型的性能表现。
Nov, 2018
本文提出了一种混合数据模型并行方法用于 Seq2Seq 循环神经网络机器翻译,将模型并行方法应用于 Seq2Seq 模型的 RNN 编码器 - 解码器部分和数据并行方法应用于模型的注意力 - softmax 部分,使用 4 个 GPU 训练和使用 1 个 GPU 训练相比,在不影响 BLEU 分数的情况下获得了 4.13 到 4.20 倍的加速。
Sep, 2019
多任务模型训练,采用动态微批处理和管道并行训练的方法提高训练效率。
DeepSpeed-Ulysses 是一种新颖、可移植和有效的方法,用于实现高效且可扩展的长序列大型语言模型的训练,包括在序列维度上划分输入数据和使用高效的全互联通信进行注意力计算。实验评估结果显示,DeepSpeed-Ulysses 在 4 倍较长的序列长度下比现有方法提供了 2.5 倍的训练速度。
Sep, 2023
本文研究 DNN 分布式训练的主要瓶颈问题,结果显示,当前最先进的方法 SGD 存在大量通信问题,而理论上的约束也使得 DNN 训练的扩展性较差。
Sep, 2016
提出了一种新的序列级训练算法,使自然语言处理应用程序使用的语言模型在生成文本时更加强大和高效。这种方法能够直接优化在测试期间使用的指标,并且在三个不同的任务中,我们的方法优于其他几种基准方法。同时,在其他基准方法使用波束搜索时,我们的方法也具有竞争力,而且速度快几倍。
Nov, 2015
利用卷积神经网络架构完全替代了循环神经网络的流行序列到序列学习方法,运用门控线性单元简化了梯度传播,为每个解码器层装备了单独的注意力模块,在 GPU 和 CPU 上取得了比 Wu 等人(2016)更高的准确性和十倍以上的速度。
May, 2017
本文探讨了如何有效地扩展使用小型 3x3 卷积核的深度卷积神经网络作为混合 NN-HMM 语音识别系统的声学模型,提出了一种新的 CNN 设计,通过批量归一化来恢复去除时间池化带来的性能损失,确保模型快速、高效地解决长切分音频识别。
Apr, 2016