在 GPU 上优化循环神经网络的性能

Apr, 2016

在 GPU 上优化循环神经网络的性能

Optimizing Performance of Recurrent Neural Networks on GPUs

Jeremy Appleyard, Tomas Kocisky, Phil Blunsom

TL;DR通过在网络中暴露操作之间的并行性，我们实现了对于各种网络规模的 10 倍加速优化，这种优化的实现被整合到了 NVIDIA 的 cuDNN 的第五个版本中。

Abstract

As recurrent neural networks become larger and deeper, training times for single networks are rising into weeks or even months. As such there is a significant incentive to improve the performance and scalability of these networks. While GPUs have become the hardware of choice for train

recurrent neural networks gpu optimization parallelism cudnn

发现论文，激发创造

在 GPU 上优化深度卷积神经网络的内存效率

本文探讨了对于卷积神经网络的内存效率的优化，以及其对性能的影响，并提出了数据布局及内存访问模式方面的优化策略。实验证明，这些策略不仅对于单个层面有效，对于整个神经网络也可获得高达 27.9 倍和 5.6 倍的速度提升。

Oct, 2016

对序列长度进行非线性顺序模型的并行化

通过并行算法提高 GPU 评估顺序模型的速度，解决传统顺序模型训练速度缓慢的问题，加快训练速度同时保持输出准确性，使得非线性顺序模型在长序列问题中具备潜力。

Sep, 2023

循环神经网络优化的进展

本文探讨了相关的优化问题，尝试使用梯度削减，跨越更长的时间范围，强化动量技术，使用更强大的输出概率模型，以及鼓励更稀疏的梯度来帮助对称性打破和学分分配等几个方面，以提高长序列的训练的可行性和效率。实验结果在文本和音乐数据的训练和测试误差中表现出了显著的进步。

Dec, 2012

稀疏持续 RNN：在芯片上压缩大规模循环神经网络

通过模型修剪和 GPU 优化，我们为稀疏 RNN 设计了一种高效的实现，包括 Lamport 时间戳、宽存储器负载和银行感知权重布局等优化措施，使得在隐藏层大小为 2304，批处理大小为 4，密度为 30% 时，我们的技术可实现超过 6 倍的加速效果，进一步，我们的技术使得大于 5 倍的模型大小可以适应于 GPU 以达到 2 倍的加速效果，最后我们在附录中进行了机器翻译和语音识别任务的案例研究，将循环层加速了最多 3 倍。

Apr, 2018

用一种奇怪的技巧并行卷积神经网络

介绍了一种新的方法，可在多个 GPU 上并行训练卷积神经网络，该方法在应用于现代卷积神经网络时比所有其他方法的扩展性都更好。

Apr, 2014

大规模神经网络训练调查

本文系统地讨论了提高深度神经网络训练效率的方法，重点考虑了内存利用率和 GPU 训练，分类总结了相关策略，并且比较了不同类别之间的方法。

Feb, 2022

利用序列桶技术和多 GPU 数据并行化加速循环神经网络的训练

本研究提出了一种基于最佳批处理按输入序列长度和数据并行化的高效循环神经网络训练算法，以在线手写识别任务为例，通过比较不同数量桶的基准训练性能和提出的解决方案，考察了墙钟时间、纪元数和验证损失值等方面的评估结果。

Aug, 2017

探索卷积神经网络并行化中的隐藏维度

本文提出了一种层级并行的方法来训练深度卷积神经网络，在这种方法中，每层神经网络都可以应用不同的并行策略以优化训练，通过解决图搜索问题来协同优化每个层的并行化方式。实验结果表明，与现有的并行化方法相比，采用该方法可以提高训练吞吐量，降低通信成本，实现更好的多 GPU 可扩展性，并保持原始网络的准确性。

Feb, 2018

MobiRNN: 移动 GPU 上高效运行的循环神经网络

本文介绍 MobiRNN 优化框架，旨在解决移动设备上 RNN 模型的隐私和效率问题。实现了专门针对移动 GPU 的 GPU 卸载。通过运行 RNN 模型以进行活动识别的评估，结果表明使用 MobiRNN 明显降低了在手机上运行 RNN 模型的延迟。

Jun, 2017

神经 GPU 学习算法

本研究提出一种神经网络结构 —— 神经 GPU 来解决 Neural Turing Machine 中存在的训练难题，实现了对于尺寸不确定的输入进行算法训练，并能成功地推广到更长的算法实例中。通过参数共享放松、少量的 dropout 和渐变噪声的技术应用，神经 GPU 在训练和泛化方面收到了显著的正面效应。

Nov, 2015