正向和反向基于梯度的超参数优化
本文介绍了如何通过逆向随机梯度下降的动态过程精确计算出所有超参数的交叉验证性能梯度,并优化上千个超参数,包括学习速率、动量方案、权重初始化分布,多参数正则化方案和神经网络架构。
Feb, 2015
神经网络的反向传播过程利用了自动微分的基本要素,通过前向模式的自动微分或 Jacobian 向量乘积 (JVP) 来计算损失函数的方向导数,并使用随机采样的不同概率分布计算这些方向导数,本文对这些方法进行了严格的分析并给出了收敛速率,同时还进行了在科学机器学习中部署的计算实验,特别是应用于物理信息神经网络和深度算子网络。
Oct, 2023
DrMAD 是一种通过优化同时保证模型效果的简单高效的方法,可以在超参数优化中通过近似反转训练轨迹最大化地利用前向传递的知识,是第一个实现自动调整深度神经网络数千个超参数的研究尝试。
Jan, 2016
本文研究了一个广泛的双层问题类别,其中包括上层目标函数的最小化和参数化的定点方程的解。在假设定点方程由一个收缩映射定义的前提下,我们提供了一种统一的分析方法,以便第一时间定量比较各种方法,为它们的迭代复杂性提供明确的界限,并建议采用逐步共轭梯度的近似隐式微分法来进行超梯度的计算,并通过实验确认了理论上的发现。
Jun, 2020
本文提出一种基于梯度的方法来调整模型的超参数,使其在对验证成本更有利的情况下进行模型参数梯度和更新,实现对正则化超参数的调优。在 MNIST、SVHN 和 CIFAR-10 数据集上的实验表明,此方法比其他基于梯度的方法成本更低且一致找到了好的超参数值,有望成为神经网络模型训练的有用工具。
Nov, 2015
本文介绍一种通用的方法来提高基于梯度的优化算法的收敛速度,通过将该方法应用到随机梯度下降、带有 Nesterov 动量的随机梯度下降和 Adam 等常用算法上,我们展示了该方法在一系列优化问题中的有效性,大大减少了对这些算法的初始学习率进行手动调整的需求;我们的方法通过使用与更新规则自身的学习率相关的梯度在优化过程中动态更新学习率,计算这个 “超梯度” 需要很少的额外计算,只需要将原始梯度的一个额外副本存储在内存中,并且只依靠于反向模式自动微分提供的内容。
Mar, 2017
使用前向模式自动微分进行梯度计算的 Frank-Wolfe 算法具有次线性收敛速度,并优于使用后向传播方法的标准 Frank-Wolfe 算法,同时研究了深度神经网络和梯度计算的性能。
Mar, 2024
本文提出了一种算法来优化连续超参数,该方法可以在模型参数完全收敛之前更新超参数,具有全局收敛的充分条件,并在 L2 正则化逻辑回归和核岭回归的正则化常数估计上验证了实证表现。
Feb, 2016
本文介绍了一种改进的前向梯度学习算法,通过应用激活项的扰动和引入大量的局部贪婪损失函数以及新的局部学习结构 LocalMixer,可以显著降低梯度估计的方差,实现在 MNIST、CIFAR-10 和 ImageNet 数据集上与反向传播算法相媲美的结果。
Oct, 2022