正向梯度匹配反向传播？

Jun, 2023

Can Forward Gradient Match Backpropagation?

Louis Fournier, Stéphane Rivaud, Eugene Belilovsky, Michael Eickenberg, Edouard Oyallon

TL;DR本研究提出了一种使用反馈获得的局部辅助网络实现前向梯度方法的优化方案，能够显著改善标准计算机视觉神经网络中前向梯度方法中由步长难以猜测所需付出的代价。

Abstract

forward gradients - the idea of using directional derivatives in forward differentiation mode - have recently been shown to be utilizable for neural network training while avoiding problems generally associated w

发现论文，激发创造

将随机梯度推向二阶方法——通过非线性变换的反向传播学习

本研究提出针对神经网络的三个转换方法，以近似二阶优化方法提高学习速度，但第三个转换可能因收敛到局部最优解且隐藏神经元的输入和输出接近零而对性能造成损害。

Jan, 2013

Proximal Backpropagation

提出了一种新的算法ProxProp，它通过隐式步骤而不是显式步骤更新神经网络训练期间的网络参数，该算法从后向传播算法的一般观点出发设计，将预测误差的反向传播与序列梯度下降步骤等效对应到二次惩罚能量上，具有下降方向的参数空间和与常见的一阶优化器Adam等相结合的优点。

Jun, 2017

梯度规范化提高了判别模型的准确性

本文发现梯度正规化可以在视觉任务中显著提高分类精度，特别是在训练数据较少的情况下。我们介绍了一种Jacobian-based的正规化方法，并在真实和合成数据上进行了实证研究，结果表明学习过程可以控制超出训练点的梯度，并产生良好的泛化能力。

Dec, 2017

用梯度作为神经网络不确定性的一种度量方法

本文提出了一种基于反向传播梯度的神经网络不确定性度量方法，该方法可以有效地检测神经网络模型的不确定性，包括判断模型是否遇到了未知的输入，具有较高的检测准确性。

Aug, 2020

非光滑自动微分的复杂度

本文提出了一种用保守梯度模型来估计算法分化的计算成本的方法，并且较为详细地描述了其在反向传播和前向传播中的应用。主要方法是基于局部Lipschitz半代数或可定义基本函数的方法，可以极大地加速了反向传播过程。

Jun, 2022

利用本地损失来放大前置梯度

本文介绍了一种改进的前向梯度学习算法，通过应用激活项的扰动和引入大量的局部贪婪损失函数以及新的局部学习结构LocalMixer，可以显著降低梯度估计的方差，实现在MNIST、CIFAR-10和ImageNet数据集上与反向传播算法相媲美的结果。

Oct, 2022

如何猜测梯度

神经网络的梯度具有比以前认为的更多结构，研究中探讨了梯度在可预测的低维子空间中的特点以及如何利用这种结构改进基于方向导数的无梯度优化方案。同时，突出了在最大程度地减小准确梯度计算方法和猜测梯度方法之间的优化性能差距方面所面临的新挑战。

Dec, 2023

选择性反向传播中梯度匹配的负面结果

通过选择最优匹配整个微批量平均梯度的（加权）子集，同时使用梯度作为廉价的代理，研究表明，无论是基于损失还是梯度匹配策略，都不能始终超越随机选择基准线，以加快深度神经网络训练过程中的计算速度。

Dec, 2023

反向-前向微分

该研究论文探索了前向梯度计算作为可替代的反向传播方法，在可逆网络中减少内存占用的潜力，并引入了一种基于矢量-逆雅可比积的新技术，加速前向梯度计算并保持真实梯度的保真度。该方法在网络深度的时间复杂度是线性的，相比朴素前向传播的二次时间复杂度，计算时间可以显著降低，且不需要分配更多内存。通过将其与反向传播相结合，进一步加速了Moonwalk，并在保持更小内存占用的同时达到与反向传播相当的时间复杂度。最后，论文展示了该方法在多种架构选择下的稳健性。Moonwalk是第一个在可逆网络中计算真实梯度的前向方法，其计算时间与反向传播相当，并且占用的内存显著较少。

Feb, 2024

MinBackProp -- 通过极简求解器反向传播

我们提出了一种通过最小问题求解器进行反向传播的方法，使用隐函数定理计算倒数，以实现对最小问题求解器的快速、稳定的训练。

Apr, 2024