可逆学习的基于梯度的超参数优化

ICMLFeb, 2015

可逆学习的基于梯度的超参数优化

Gradient-based Hyperparameter Optimization through Reversible Learning

Dougal Maclaurin, David Duvenaud, Ryan P. Adams

TL;DR本文介绍了如何通过逆向随机梯度下降的动态过程精确计算出所有超参数的交叉验证性能梯度，并优化上千个超参数，包括学习速率、动量方案、权重初始化分布，多参数正则化方案和神经网络架构。

Abstract

Tuning hyperparameters of learning algorithms is hard because gradients are usually unavailable. We compute exact gradients of

hyperparameters gradients cross-validation optimization neural networks

发现论文，激发创造

正向和反向基于梯度的超参数优化

研究了计算任何迭代学习算法（如随机梯度下降）超参数的验证误差梯度的两种方法（反向模式和正向模式），这些程序镜像了递归神经网络计算梯度的两种方法，并具有不同的运行时间和空间要求。

Mar, 2017

基于梯度的可扩展连续正则化超参数调整

本文提出一种基于梯度的方法来调整模型的超参数，使其在对验证成本更有利的情况下进行模型参数梯度和更新，实现对正则化超参数的调优。在 MNIST、SVHN 和 CIFAR-10 数据集上的实验表明，此方法比其他基于梯度的方法成本更低且一致找到了好的超参数值，有望成为神经网络模型训练的有用工具。

Nov, 2015

使用近似梯度进行超参数优化

本文提出了一种算法来优化连续超参数，该方法可以在模型参数完全收敛之前更新超参数，具有全局收敛的充分条件，并在 L2 正则化逻辑回归和核岭回归的正则化常数估计上验证了实证表现。

Feb, 2016

通过隐式微分优化数百万个超参数

使用梯度优化算法，利用隐函数定理及反向黑塞矩阵逼近来提高超参数优化的效率，成功应用于训练超大规模网络架构，例如数据增强网络，整个过程只比标准训练多花费少量内存与计算资源。

Nov, 2019

黑盒函数的逐步优化

本论文提出了一种新的方法，利用估计梯度来逐渐自适应地优化机器学习中的未知函数，并验证了该方法在低维和高维问题上的实验性能，证明了在调整高维超参数时我们的方法的优越性。

Jun, 2019

双层优化的截断反向传播

本文分析了通过截断反向传播计算的近似梯度的属性，并为其收敛。研究表明，使用几步反向传播计算的近似梯度优化通常与使用精确梯度的优化相当，同时需要更少的内存和一半的计算时间。

Oct, 2018

使用超梯度下降进行在线学习率调整

本文介绍一种通用的方法来提高基于梯度的优化算法的收敛速度，通过将该方法应用到随机梯度下降、带有 Nesterov 动量的随机梯度下降和 Adam 等常用算法上，我们展示了该方法在一系列优化问题中的有效性，大大减少了对这些算法的初始学习率进行手动调整的需求；我们的方法通过使用与更新规则自身的学习率相关的梯度在优化过程中动态更新学习率，计算这个 “超梯度” 需要很少的额外计算，只需要将原始梯度的一个额外副本存储在内存中，并且只依靠于反向模式自动微分提供的内容。

Mar, 2017

基于梯度的简单有效序列到序列模型调优

本研究首次将梯度基础的超参数优化方法应用于序列到序列任务中，为神经机器翻译和自然语言理解任务（通过 T5 预训练）提供了效率和性能增益。通过超参数优化得到的一些超参数学习时间表可以超过甚至优于最优常值调整。同时，本文还展示了在预训练期间学习超参数可以提高在下游自然语言理解任务中的性能表现。

Sep, 2022

用梯度下降训练学无梯度下降的学习

通过比较基于贝叶斯优化的算法，我们研究了在简单合成函数上训练的循环神经网络优化器的性能，发现这些训练后的优化器在不同的黑盒函数优化、超参数整定和全局优化基准测试中表现优异。

Nov, 2016

基于神经网络的无梯度拓扑优化

通过预训练的神经重参数化策略，在潜在空间中优化设计相对于传统方法而言能减少至少一个数量级的迭代次数，这在拓扑优化中具有重要意义。

Mar, 2024