在 GPU 上优化循环神经网络的性能
本文探讨了对于卷积神经网络的内存效率的优化,以及其对性能的影响,并提出了数据布局及内存访问模式方面的优化策略。实验证明,这些策略不仅对于单个层面有效,对于整个神经网络也可获得高达 27.9 倍和 5.6 倍的速度提升。
Oct, 2016
通过并行算法提高 GPU 评估顺序模型的速度,解决传统顺序模型训练速度缓慢的问题,加快训练速度同时保持输出准确性,使得非线性顺序模型在长序列问题中具备潜力。
Sep, 2023
本文探讨了相关的优化问题,尝试使用梯度削减,跨越更长的时间范围,强化动量技术,使用更强大的输出概率模型,以及鼓励更稀疏的梯度来帮助对称性打破和学分分配等几个方面,以提高长序列的训练的可行性和效率。实验结果在文本和音乐数据的训练和测试误差中表现出了显著的进步。
Dec, 2012
通过模型修剪和 GPU 优化,我们为稀疏 RNN 设计了一种高效的实现,包括 Lamport 时间戳、宽存储器负载和银行感知权重布局等优化措施,使得在隐藏层大小为 2304,批处理大小为 4,密度为 30% 时,我们的技术可实现超过 6 倍的加速效果,进一步,我们的技术使得大于 5 倍的模型大小可以适应于 GPU 以达到 2 倍的加速效果,最后我们在附录中进行了机器翻译和语音识别任务的案例研究,将循环层加速了最多 3 倍。
Apr, 2018
本研究提出了一种基于最佳批处理按输入序列长度和数据并行化的高效循环神经网络训练算法,以在线手写识别任务为例,通过比较不同数量桶的基准训练性能和提出的解决方案,考察了墙钟时间、纪元数和验证损失值等方面的评估结果。
Aug, 2017
本文提出了一种层级并行的方法来训练深度卷积神经网络,在这种方法中,每层神经网络都可以应用不同的并行策略以优化训练,通过解决图搜索问题来协同优化每个层的并行化方式。 实验结果表明,与现有的并行化方法相比,采用该方法可以提高训练吞吐量,降低通信成本,实现更好的多 GPU 可扩展性,并保持原始网络的准确性。
Feb, 2018
本文介绍 MobiRNN 优化框架,旨在解决移动设备上 RNN 模型的隐私和效率问题。实现了专门针对移动 GPU 的 GPU 卸载。通过运行 RNN 模型以进行活动识别的评估,结果表明使用 MobiRNN 明显降低了在手机上运行 RNN 模型的延迟。
Jun, 2017
本研究提出一种神经网络结构 —— 神经 GPU 来解决 Neural Turing Machine 中存在的训练难题,实现了对于尺寸不确定的输入进行算法训练,并能成功地推广到更长的算法实例中。通过参数共享放松、少量的 dropout 和渐变噪声的技术应用,神经 GPU 在训练和泛化方面收到了显著的正面效应。
Nov, 2015