用于优化算法的随机前向模式自动微分

Oct, 2023

用于优化算法的随机前向模式自动微分

Randomized Forward Mode of Automatic Differentiation for Optimization Algorithms

Khemraj Shukla, Yeonjong Shin

TL;DR神经网络的反向传播过程利用了自动微分的基本要素，通过前向模式的自动微分或 Jacobian 向量乘积 (JVP) 来计算损失函数的方向导数，并使用随机采样的不同概率分布计算这些方向导数，本文对这些方法进行了严格的分析并给出了收敛速率，同时还进行了在科学机器学习中部署的计算实验，特别是应用于物理信息神经网络和深度算子网络。

Abstract

backpropagation within neural networks leverages a fundamental element of automatic differentiation, which is referred to as the reverse mode differentiation, or vector Jacobian Product (VJP) or, in the context o

backpropagation neural networks gradient descent directional derivatives rate of convergence

发现论文，激发创造

随机自动微分

提出了随机自动微分 (RAD) 的一般框架和方法，可实现减少内存的无偏梯度估计，特别适用于小批量的反向传播神经网络，同时适用于科学计算中的优化控制参数

Jul, 2020

正向梯度匹配反向传播？

本研究提出了一种使用反馈获得的局部辅助网络实现前向梯度方法的优化方案，能够显著改善标准计算机视觉神经网络中前向梯度方法中由步长难以猜测所需付出的代价。

Jun, 2023

正向和反向基于梯度的超参数优化

研究了计算任何迭代学习算法（如随机梯度下降）超参数的验证误差梯度的两种方法（反向模式和正向模式），这些程序镜像了递归神经网络计算梯度的两种方法，并具有不同的运行时间和空间要求。

Mar, 2017

DrMAD：使用反向模式自动微分优化深度神经网络超参数的蒸馏

DrMAD 是一种通过优化同时保证模型效果的简单高效的方法，可以在超参数优化中通过近似反转训练轨迹最大化地利用前向传递的知识，是第一个实现自动调整深度神经网络数千个超参数的研究尝试。

Jan, 2016

便宜微分算子的神经网络

本文介绍了一种使用受限神经网络架构来实现计算涉及到维度导数的微分算子的方法，改进了反向传播计算图，使其可以实现有效提取维度导数。该方法在一些应用场景中具有较低的复杂度，包括计算流体力学中的发散度、连续正规化流的精确密度计算以及训练随机微分方程模型中的 Fokker–Planck 方程求解。

Dec, 2019

迭代算法的一步差分

本文提出一种新的自动求导方法 —— 一步法微分（Jacobian-free backpropagation），其性能可与隐式微分方法相媲美，并为快速算法（如超线性优化方法）提供了解决方案。其中使用特定的例子（如牛顿法和梯度下降法）对其进行全面的理论近似分析，并揭示了其在双层优化中的应用。通过多个数值示例，证明了这种一步估计器的正确性。

May, 2023

基于前向梯度级联法的高效深度神经网络训练优化

使用前向模式自动微分进行梯度计算的 Frank-Wolfe 算法具有次线性收敛速度，并优于使用后向传播方法的标准 Frank-Wolfe 算法，同时研究了深度神经网络和梯度计算的性能。

Mar, 2024

自动微分的简单本质

本文提出了一种由简单、自然的规范计算出的通用 AD 算法，通过使用 AD - 不可知编译器插件，这些算法可以直接从现有的编程语言中使用，无需新的数据类型或编程风格，并且不涉及任何图表、磁带、变量、偏导数或突变，从而更易于理解、改进和并行执行。

Apr, 2018

反向 - 前向微分

该研究论文探索了前向梯度计算作为可替代的反向传播方法，在可逆网络中减少内存占用的潜力，并引入了一种基于矢量 - 逆雅可比积的新技术，加速前向梯度计算并保持真实梯度的保真度。该方法在网络深度的时间复杂度是线性的，相比朴素前向传播的二次时间复杂度，计算时间可以显著降低，且不需要分配更多内存。通过将其与反向传播相结合，进一步加速了 Moonwalk，并在保持更小内存占用的同时达到与反向传播相当的时间复杂度。最后，论文展示了该方法在多种架构选择下的稳健性。Moonwalk 是第一个在可逆网络中计算真实梯度的前向方法，其计算时间与反向传播相当，并且占用的内存显著较少。

Feb, 2024

梯度不是唯一所需

讨论不同 iable 编程中的混沌失效原因及其产生的条件，包括神经网络、数值物理模拟及辅助优化算法训练等。

Nov, 2021