正向和反向基于梯度的超参数优化

ICMLMar, 2017

正向和反向基于梯度的超参数优化

Forward and Reverse Gradient-Based Hyperparameter Optimization

Luca Franceschi, Michele Donini, Paolo Frasconi, Massimiliano Pontil

TL;DR研究了计算任何迭代学习算法（如随机梯度下降）超参数的验证误差梯度的两种方法（反向模式和正向模式），这些程序镜像了递归神经网络计算梯度的两种方法，并具有不同的运行时间和空间要求。

Abstract

We study two procedures (reverse-mode and forward-mode) for computing the gradient of the validation error with respect to the hyperparameters of any iterative learning algorithm such as →

reverse-mode forward-mode gradient computation hyperparameter optimization stochastic gradient descent

发现论文，激发创造

可逆学习的基于梯度的超参数优化

本文介绍了如何通过逆向随机梯度下降的动态过程精确计算出所有超参数的交叉验证性能梯度，并优化上千个超参数，包括学习速率、动量方案、权重初始化分布，多参数正则化方案和神经网络架构。

Feb, 2015

用于优化算法的随机前向模式自动微分

神经网络的反向传播过程利用了自动微分的基本要素，通过前向模式的自动微分或 Jacobian 向量乘积 (JVP) 来计算损失函数的方向导数，并使用随机采样的不同概率分布计算这些方向导数，本文对这些方法进行了严格的分析并给出了收敛速率，同时还进行了在科学机器学习中部署的计算实验，特别是应用于物理信息神经网络和深度算子网络。

Oct, 2023

DrMAD：使用反向模式自动微分优化深度神经网络超参数的蒸馏

DrMAD 是一种通过优化同时保证模型效果的简单高效的方法，可以在超参数优化中通过近似反转训练轨迹最大化地利用前向传递的知识，是第一个实现自动调整深度神经网络数千个超参数的研究尝试。

Jan, 2016

关于超梯度计算的迭代复杂度

本文研究了一个广泛的双层问题类别，其中包括上层目标函数的最小化和参数化的定点方程的解。在假设定点方程由一个收缩映射定义的前提下，我们提供了一种统一的分析方法，以便第一时间定量比较各种方法，为它们的迭代复杂性提供明确的界限，并建议采用逐步共轭梯度的近似隐式微分法来进行超梯度的计算，并通过实验确认了理论上的发现。

Jun, 2020

基于梯度的可扩展连续正则化超参数调整

本文提出一种基于梯度的方法来调整模型的超参数，使其在对验证成本更有利的情况下进行模型参数梯度和更新，实现对正则化超参数的调优。在 MNIST、SVHN 和 CIFAR-10 数据集上的实验表明，此方法比其他基于梯度的方法成本更低且一致找到了好的超参数值，有望成为神经网络模型训练的有用工具。

Nov, 2015

使用超梯度下降进行在线学习率调整

本文介绍一种通用的方法来提高基于梯度的优化算法的收敛速度，通过将该方法应用到随机梯度下降、带有 Nesterov 动量的随机梯度下降和 Adam 等常用算法上，我们展示了该方法在一系列优化问题中的有效性，大大减少了对这些算法的初始学习率进行手动调整的需求；我们的方法通过使用与更新规则自身的学习率相关的梯度在优化过程中动态更新学习率，计算这个 “超梯度” 需要很少的额外计算，只需要将原始梯度的一个额外副本存储在内存中，并且只依靠于反向模式自动微分提供的内容。

Mar, 2017

基于前向梯度级联法的高效深度神经网络训练优化

使用前向模式自动微分进行梯度计算的 Frank-Wolfe 算法具有次线性收敛速度，并优于使用后向传播方法的标准 Frank-Wolfe 算法，同时研究了深度神经网络和梯度计算的性能。

Mar, 2024

使用近似梯度进行超参数优化

本文提出了一种算法来优化连续超参数，该方法可以在模型参数完全收敛之前更新超参数，具有全局收敛的充分条件，并在 L2 正则化逻辑回归和核岭回归的正则化常数估计上验证了实证表现。

Feb, 2016

正向梯度匹配反向传播？

本研究提出了一种使用反馈获得的局部辅助网络实现前向梯度方法的优化方案，能够显著改善标准计算机视觉神经网络中前向梯度方法中由步长难以猜测所需付出的代价。

Jun, 2023

利用本地损失来放大前置梯度

本文介绍了一种改进的前向梯度学习算法，通过应用激活项的扰动和引入大量的局部贪婪损失函数以及新的局部学习结构 LocalMixer，可以显著降低梯度估计的方差，实现在 MNIST、CIFAR-10 和 ImageNet 数据集上与反向传播算法相媲美的结果。

Oct, 2022