对序列长度进行非线性顺序模型的并行化

Sep, 2023

对序列长度进行非线性顺序模型的并行化

Parallelizing non-linear sequential models over the sequence length

Yi Heng Lim, Qi Zhu, Joshua Selfridge, Muhammad Firmansyah Kasim

TL;DR通过并行算法提高 GPU 评估顺序模型的速度，解决传统顺序模型训练速度缓慢的问题，加快训练速度同时保持输出准确性，使得非线性顺序模型在长序列问题中具备潜力。

Abstract

sequential models, such as Recurrent Neural Networks and Neural Ordinary Differential Equations, have long suffered from slow training due to their inherent sequential nature. For many years this bottleneck has persisted, as many thought →

sequential models parallel algorithm gpu evaluation training bottleneck long time series classification

发现论文，激发创造

基于序列长度的线性循环神经网络并行化

该研究论文描述了使用线性顺序依赖关系的 RNN 可以使用并行扫描算法在序列长度上进行并行化训练，通过开发并行线性递归 CUDA 内核，加速多种最先进的 RNN 架构的训练和推理，扩展序列学习到以前无法触及的极长序列区域并成功训练 GILR-LSTM 进行一百万时间步长的合成序列分类任务。

Sep, 2017

利用序列桶技术和多 GPU 数据并行化加速循环神经网络的训练

本研究提出了一种基于最佳批处理按输入序列长度和数据并行化的高效循环神经网络训练算法，以在线手写识别任务为例，通过比较不同数量桶的基准训练性能和提出的解决方案，考察了墙钟时间、纪元数和验证损失值等方面的评估结果。

Aug, 2017

使用多网格求解器并行训练 GRU 神经网络处理长序列

该论文提出了一种新的并行剪枝方案（称为 “并行化时间”），基于多网格时间缩减（MGRIT）求解器对 GRU 进行训练，可以在序列长度增加时显著提高性能，实验结果显示，与串行方法相比，新的并行化训练方案实现了高达 6.5 倍的加速比。

Mar, 2022

序列到序列递归神经网络机器翻译的混合数据 - 模型并行训练

本文提出了一种混合数据模型并行方法用于 Seq2Seq 循环神经网络机器翻译，将模型并行方法应用于 Seq2Seq 模型的 RNN 编码器 - 解码器部分和数据并行方法应用于模型的注意力 - softmax 部分，使用 4 个 GPU 训练和使用 1 个 GPU 训练相比，在不影响 BLEU 分数的情况下获得了 4.13 到 4.20 倍的加速。

Sep, 2019

在 GPU 上优化循环神经网络的性能

通过在网络中暴露操作之间的并行性，我们实现了对于各种网络规模的 10 倍加速优化，这种优化的实现被整合到了 NVIDIA 的 cuDNN 的第五个版本中。

Apr, 2016

通过非线性多重网格实现深度残差神经网络的 GPU 并行层间训练

利用多重网格完全逼近存储算法来解决深度残差神经网络的训练，并在 GPU 上实现神经网络分层的并行化训练和并发计算核执行，这项工作显示出与传统的分层模型并行技术相比具有 10.2 倍的速度提升。

Jul, 2020

卷积序列到序列学习

利用卷积神经网络架构完全替代了循环神经网络的流行序列到序列学习方法，运用门控线性单元简化了梯度传播，为每个解码器层装备了单独的注意力模块，在 GPU 和 CPU 上取得了比 Wu 等人（2016）更高的准确性和十倍以上的速度。

May, 2017

准循环神经网络

本文介绍了一种新型的神经序列建模方法 - 准循环神经网络（QRNNs），通过卷积层与最小化的循环池化函数的交替使用，QRNNs 可以在高度并行的情况下完成对序列数据的建模，并且在语言建模、情感分类和字符级神经机器翻译等任务中显示出比基于 LSTM 的架构更优异的性能。

Nov, 2016

神经 GPU 学习算法

本研究提出一种神经网络结构 —— 神经 GPU 来解决 Neural Turing Machine 中存在的训练难题，实现了对于尺寸不确定的输入进行算法训练，并能成功地推广到更长的算法实例中。通过参数共享放松、少量的 dropout 和渐变噪声的技术应用，神经 GPU 在训练和泛化方面收到了显著的正面效应。

Nov, 2015

切片循环神经网络

本文提出了一种切片循环神经网络（SRNNs），将序列分割为多个子序列实现并行化，SRNNs 相对标准 RNNs 在训练时间快 136 倍且在六个大规模情感分析数据集上表现更好。

Jul, 2018