具收敛保证的解耦并行反向传播算法
提出了一种新的算法ProxProp,它通过隐式步骤而不是显式步骤更新神经网络训练期间的网络参数,该算法从后向传播算法的一般观点出发设计,将预测误差的反向传播与序列梯度下降步骤等效对应到二次惩罚能量上,具有下降方向的参数空间和与常见的一阶优化器Adam等相结合的优点。
Jun, 2017
本研究提出了一种新的在线(ALternating Minimization)方法来训练深度神经网络,同时也给出了该方法在随机设置下的理论收敛保证,并在不同体系结构和数据集上展示出具有前景的实证结果。
Jun, 2018
通过提出一种新的并行目标形式及引入特征重放算法,本文成功地解决了传统反向传播算法无法平行更新网络层的问题,并在实际中实现了更快的收敛速度、更低的内存消耗和更好的泛化性能。
Jul, 2018
本研究提出了 Layer-wise Staleness 方法与 Diversely Stale Parameters (DSP) 算法来解决深度卷积神经网络的训练效率问题,并对两种梯度法进行分析和证明,实验证明 DSP 能显著提升训练速度并具备更强的鲁棒性。
Sep, 2019
介绍了 Selective-Backprop 技术,该技术可以通过在每次迭代中优先处理损失较大的示例来加速深度神经网络训练,通过在多个现代图像模型上的评估表明,相比标准SGD和最先进的重要性采样方法,Selective-Backprop 可以以快至多达3.5倍的速度收敛到目标误差率。
Oct, 2019
本文研究了深度神经网络的硬件加速器,并提出了一种具有硬件优势的异步管道并行训练算法。通过引入Spike Compensation和Linear Weight Prediction两种方法,它有效地减轻了由Pipelined Backpropagation的异步性造成的缺点,并优于现有技术。适当的标准化和小批量大小也有助于训练,与SGD相比,它能够在CIFAR-10和ImageNet上为多个网络的训练匹配准确度。
Mar, 2020
本篇论文提出了一种名为Dithered Backprop的降低了反向传播的计算成本的方法,该方法利用一种被称为非减少抖动的量化方法诱导了稀疏性,从而可以通过计算高效的稀疏矩阵乘法来利用它,并证明该方法对于一些图像分类任务而言可以在不降低准确性的情况下实现92%的稀疏性,同时与现有的8位训练方法完全兼容,因此能够进一步降低计算要求。
Apr, 2020
本研究提出了PaReprop算法,该算法能够在反向传播阶段中将激活重新计算的额外计算开销与梯度计算本身并行化,实现记忆高效训练,并比普通可逆训练达到高达20%的更高训练吞吐量。
Jun, 2023
通过引入一种新的无反向传播的方法,本研究提出了一个基于局部误差信号的块状神经网络,可以分别优化不同的子神经网络,并通过并行计算局部误差信号来加速权重更新过程,取得了比使用端到端反向传播和其他最先进的块状学习技术更好的性能,特别是在 CIFAR-10 和 Tiny-ImageNet 数据集上。
Dec, 2023
本研究解决了深度学习模型中的反向传播算法效率低下的问题,尤其是在大规模模型训练时。提出了一种方法,通过异步线程并行化层更新,并利用更高比例的前向线程相对于反向线程,从而显著减少参数的陈旧性。实验表明,该方法在多个设备上可比现有的解决方案快达2.97倍,同时保持接近最先进的结果。
Oct, 2024