该研究介绍了一种新型的具有可逆性的深度残差网络,名为RevNet,能够通过其后续层的激活来精确地重建每一层的激活,从而克服了传统深度残差网络在反向传播过程中所需要大量的存储空间,实现了与相同大小的深度残余网络相似的图像分类准确率。
Jul, 2017
本文提出了一种新的反向传播实现,通过使用近似来显著减少内存使用,使用相对较低的精度近似,而不影响训练准确性,并展示了其在 CIFAR-10、CIFAR-100 和 ImageNet 数据集上的优异表现。
Jan, 2019
提出了一种名为Sideways的逼近反向传播方案,针对视频模型进行训练以提高效率和广义化能力,该方案在重叠网络激活时覆盖原有数据,并破坏权重更新的精确对应关系。
Jan, 2020
本文研究了深度神经网络的硬件加速器,并提出了一种具有硬件优势的异步管道并行训练算法。通过引入Spike Compensation和Linear Weight Prediction两种方法,它有效地减轻了由Pipelined Backpropagation的异步性造成的缺点,并优于现有技术。适当的标准化和小批量大小也有助于训练,与SGD相比,它能够在CIFAR-10和ImageNet上为多个网络的训练匹配准确度。
Mar, 2020
本文介绍了一种改进的前向梯度学习算法,通过应用激活项的扰动和引入大量的局部贪婪损失函数以及新的局部学习结构LocalMixer,可以显著降低梯度估计的方差,实现在MNIST、CIFAR-10和ImageNet数据集上与反向传播算法相媲美的结果。
Oct, 2022
本研究提出了PaReprop算法,该算法能够在反向传播阶段中将激活重新计算的额外计算开销与梯度计算本身并行化,实现记忆高效训练,并比普通可逆训练达到高达20%的更高训练吞吐量。
Jun, 2023
通过 Cyclic Data Parallelism 和 Model Parallelism 技术,在训练大型深度学习模型的过程中,减少了内存的需求以及 GPU 的使用,提升了模型的执行效率。
Mar, 2024
本文主要关注细调预训练大型模型的内存开销问题,从激活函数和层归一化的角度来减轻内存开销,并通过引入Approx-BP理论,提出了GELU和SiLU激活函数的内存高效替代方案,以及Memory-Sharing Backpropagation策略来减少内存使用冗余。实验表明,该方法能够降低高达30%的内存使用率。
Jun, 2024
通过推迟部分训练的全模型收缩和动态调整子网络学习率的方法(DEpS),提出了一个可扩展的训练方案,以降低卷积神经网络的训练成本并实现更好的知识蒸馏效果。DEpS 在准确性和成本方面在不同数据集上优于现有的一次性训练技术。
Jul, 2024
本研究解决了深度学习模型中的反向传播算法效率低下的问题,尤其是在大规模模型训练时。提出了一种方法,通过异步线程并行化层更新,并利用更高比例的前向线程相对于反向线程,从而显著减少参数的陈旧性。实验表明,该方法在多个设备上可比现有的解决方案快达2.97倍,同时保持接近最先进的结果。
Oct, 2024