对序列长度进行非线性顺序模型的并行化
该研究论文描述了使用线性顺序依赖关系的 RNN 可以使用并行扫描算法在序列长度上进行并行化训练,通过开发并行线性递归 CUDA 内核,加速多种最先进的 RNN 架构的训练和推理,扩展序列学习到以前无法触及的极长序列区域并成功训练 GILR-LSTM 进行一百万时间步长的合成序列分类任务。
Sep, 2017
本研究提出了一种基于最佳批处理按输入序列长度和数据并行化的高效循环神经网络训练算法,以在线手写识别任务为例,通过比较不同数量桶的基准训练性能和提出的解决方案,考察了墙钟时间、纪元数和验证损失值等方面的评估结果。
Aug, 2017
该论文提出了一种新的并行剪枝方案(称为 “并行化时间”),基于多网格时间缩减(MGRIT)求解器对 GRU 进行训练,可以在序列长度增加时显著提高性能,实验结果显示,与串行方法相比,新的并行化训练方案实现了高达 6.5 倍的加速比。
Mar, 2022
本文提出了一种混合数据模型并行方法用于 Seq2Seq 循环神经网络机器翻译,将模型并行方法应用于 Seq2Seq 模型的 RNN 编码器 - 解码器部分和数据并行方法应用于模型的注意力 - softmax 部分,使用 4 个 GPU 训练和使用 1 个 GPU 训练相比,在不影响 BLEU 分数的情况下获得了 4.13 到 4.20 倍的加速。
Sep, 2019
通过在网络中暴露操作之间的并行性,我们实现了对于各种网络规模的 10 倍加速优化,这种优化的实现被整合到了 NVIDIA 的 cuDNN 的第五个版本中。
Apr, 2016
利用多重网格完全逼近存储算法来解决深度残差神经网络的训练,并在 GPU 上实现神经网络分层的并行化训练和并发计算核执行,这项工作显示出与传统的分层模型并行技术相比具有 10.2 倍的速度提升。
Jul, 2020
利用卷积神经网络架构完全替代了循环神经网络的流行序列到序列学习方法,运用门控线性单元简化了梯度传播,为每个解码器层装备了单独的注意力模块,在 GPU 和 CPU 上取得了比 Wu 等人(2016)更高的准确性和十倍以上的速度。
May, 2017
本文介绍了一种新型的神经序列建模方法 - 准循环神经网络(QRNNs),通过卷积层与最小化的循环池化函数的交替使用,QRNNs 可以在高度并行的情况下完成对序列数据的建模,并且在语言建模、情感分类和字符级神经机器翻译等任务中显示出比基于 LSTM 的架构更优异的性能。
Nov, 2016
本研究提出一种神经网络结构 —— 神经 GPU 来解决 Neural Turing Machine 中存在的训练难题,实现了对于尺寸不确定的输入进行算法训练,并能成功地推广到更长的算法实例中。通过参数共享放松、少量的 dropout 和渐变噪声的技术应用,神经 GPU 在训练和泛化方面收到了显著的正面效应。
Nov, 2015
本文提出了一种切片循环神经网络(SRNNs),将序列分割为多个子序列实现并行化,SRNNs 相对标准 RNNs 在训练时间快 136 倍且在六个大规模情感分析数据集上表现更好。
Jul, 2018