可逆学习的基于梯度的超参数优化
研究了计算任何迭代学习算法(如随机梯度下降)超参数的验证误差梯度的两种方法(反向模式和正向模式),这些程序镜像了递归神经网络计算梯度的两种方法,并具有不同的运行时间和空间要求。
Mar, 2017
本文提出一种基于梯度的方法来调整模型的超参数,使其在对验证成本更有利的情况下进行模型参数梯度和更新,实现对正则化超参数的调优。在 MNIST、SVHN 和 CIFAR-10 数据集上的实验表明,此方法比其他基于梯度的方法成本更低且一致找到了好的超参数值,有望成为神经网络模型训练的有用工具。
Nov, 2015
本文提出了一种算法来优化连续超参数,该方法可以在模型参数完全收敛之前更新超参数,具有全局收敛的充分条件,并在 L2 正则化逻辑回归和核岭回归的正则化常数估计上验证了实证表现。
Feb, 2016
使用梯度优化算法,利用隐函数定理及反向黑塞矩阵逼近来提高超参数优化的效率,成功应用于训练超大规模网络架构,例如数据增强网络,整个过程只比标准训练多花费少量内存与计算资源。
Nov, 2019
本论文提出了一种新的方法,利用估计梯度来逐渐自适应地优化机器学习中的未知函数,并验证了该方法在低维和高维问题上的实验性能,证明了在调整高维超参数时我们的方法的优越性。
Jun, 2019
本文分析了通过截断反向传播计算的近似梯度的属性,并为其收敛。研究表明,使用几步反向传播计算的近似梯度优化通常与使用精确梯度的优化相当,同时需要更少的内存和一半的计算时间。
Oct, 2018
本文介绍一种通用的方法来提高基于梯度的优化算法的收敛速度,通过将该方法应用到随机梯度下降、带有 Nesterov 动量的随机梯度下降和 Adam 等常用算法上,我们展示了该方法在一系列优化问题中的有效性,大大减少了对这些算法的初始学习率进行手动调整的需求;我们的方法通过使用与更新规则自身的学习率相关的梯度在优化过程中动态更新学习率,计算这个 “超梯度” 需要很少的额外计算,只需要将原始梯度的一个额外副本存储在内存中,并且只依靠于反向模式自动微分提供的内容。
Mar, 2017
本研究首次将梯度基础的超参数优化方法应用于序列到序列任务中,为神经机器翻译和自然语言理解任务(通过 T5 预训练)提供了效率和性能增益。通过超参数优化得到的一些超参数学习时间表可以超过甚至优于最优常值调整。同时,本文还展示了在预训练期间学习超参数可以提高在下游自然语言理解任务中的性能表现。
Sep, 2022
通过比较基于贝叶斯优化的算法,我们研究了在简单合成函数上训练的循环神经网络优化器的性能,发现这些训练后的优化器在不同的黑盒函数优化、超参数整定和全局优化基准测试中表现优异。
Nov, 2016