BLoad：增强神经网络训练的高效顺序数据处理

Oct, 2023

BLoad：增强神经网络训练的高效顺序数据处理

BLoad: Enhancing Neural Network Training with Efficient Sequential Data Handling

Raphael Ruschel, A. S. M. Iftekhar, B. S. Manjunath, Suya You

TL;DR使用新的训练方案，能够在不同大小的序列上实现高效的分布式数据并行训练，最小化内存消耗，并在实验中取得了整体性能的提升。

Abstract

The increasing complexity of modern deep neural network models and the expanding sizes of datasets necessitate the development of optimized and scalable training methods. In this white paper, we addressed the cha

deep neural network models optimized training scalable training methods sequences of varying sizes distributed data-parallel training

发现论文，激发创造

利用序列桶技术和多 GPU 数据并行化加速循环神经网络的训练

本研究提出了一种基于最佳批处理按输入序列长度和数据并行化的高效循环神经网络训练算法，以在线手写识别任务为例，通过比较不同数量桶的基准训练性能和提出的解决方案，考察了墙钟时间、纪元数和验证损失值等方面的评估结果。

Aug, 2017

大规模分布式模型训练的高效并行化布局

通过对大型语言模型的多种训练配置进行全面的消融研究，我们总结出几个关键建议，以实现最高效的训练，例如，我们发现使用微批量大小为 1 通常能实现最高效的训练布局。较大的微批量大小需要激活检查点或更高程度的模型并行性，并且还会导致更大的管道延迟。我们最高效的配置使得在一系列模型规模上实现了最先进的训练效率结果，尤其是在训练 13B 模型时，模型 FLOPs 利用率达到了 70.5%。

Nov, 2023

数据并行对神经网络训练的影响测量

本文研究了增加批次大小对神经网络训练时间以及模型性能的影响，并发现不同的工作负载之间存在巨大的差异，并且不发现增加批次大小会降低模型的性能表现。

Nov, 2018

序列到序列递归神经网络机器翻译的混合数据 - 模型并行训练

本文提出了一种混合数据模型并行方法用于 Seq2Seq 循环神经网络机器翻译，将模型并行方法应用于 Seq2Seq 模型的 RNN 编码器 - 解码器部分和数据并行方法应用于模型的注意力 - softmax 部分，使用 4 个 GPU 训练和使用 1 个 GPU 训练相比，在不影响 BLEU 分数的情况下获得了 4.13 到 4.20 倍的加速。

Sep, 2019

DynaPipe: 通过动态管道优化多任务训练

多任务模型训练，采用动态微批处理和管道并行训练的方法提高训练效率。

Nov, 2023

DeepSpeed Ulysses：极长序列 Transformer 模型训练的系统优化

DeepSpeed-Ulysses 是一种新颖、可移植和有效的方法，用于实现高效且可扩展的长序列大型语言模型的训练，包括在序列维度上划分输入数据和使用高效的全互联通信进行注意力计算。实验评估结果显示，DeepSpeed-Ulysses 在 4 倍较长的序列长度下比现有方法提供了 2.5 倍的训练速度。

Sep, 2023

深度神经网络分布式训练：并行可扩展性的理论和实践的极限

本文研究 DNN 分布式训练的主要瓶颈问题，结果显示，当前最先进的方法 SGD 存在大量通信问题，而理论上的约束也使得 DNN 训练的扩展性较差。

Sep, 2016

循环神经网络中的序列级别训练

提出了一种新的序列级训练算法，使自然语言处理应用程序使用的语言模型在生成文本时更加强大和高效。这种方法能够直接优化在测试期间使用的指标，并且在三个不同的任务中，我们的方法优于其他几种基准方法。同时，在其他基准方法使用波束搜索时，我们的方法也具有竞争力，而且速度快几倍。

Nov, 2015

卷积序列到序列学习

利用卷积神经网络架构完全替代了循环神经网络的流行序列到序列学习方法，运用门控线性单元简化了梯度传播，为每个解码器层装备了单独的注意力模块，在 GPU 和 CPU 上取得了比 Wu 等人（2016）更高的准确性和十倍以上的速度。

May, 2017

LVCSR 的非常深卷积神经网络的进展

本文探讨了如何有效地扩展使用小型 3x3 卷积核的深度卷积神经网络作为混合 NN-HMM 语音识别系统的声学模型，提出了一种新的 CNN 设计，通过批量归一化来恢复去除时间池化带来的性能损失，确保模型快速、高效地解决长切分音频识别。

Apr, 2016