神经网络的抛物线逼近线搜索
随机梯度下降是最简单的深度学习优化器之一,该论文通过蒙特卡洛方法对其进行了收敛性分析,并证明了使用 Armijo 线搜索的随机梯度下降在非凸优化中的性能优于其他深度学习优化器,同时还发现了批量大小对训练的影响,批量大小越大,需要的步数越少,但在成本和梯度计算的角度,存在一个临界批量大小最能降低成本。
Jul, 2023
本文提出了一种使用线性搜索技术自动设置步长的随机梯度下降算法,在数据插值设置中,使用 Armijo 线性搜索方法的 SGD 实现凸和强凸函数的确定性收敛率,同时提出了一种 Lipschitz 线性搜索策略的随机额外梯度的算法,该算法在满足嵌入条件的非凸问题和鞍点问题的情况下实现了线性收敛率,并在标准分类任务上表现出了良好的性能。
May, 2019
我们提出了一种新的逐层自适应步长过程,用于解决深度学习中用于最小化经验损失函数的随机一阶优化方法中需要调整学习率的问题,并且实验证明这种方法比 fine-tuned 学习率的方法以及一些常见的一阶或二阶优化方法更有效。
May, 2023
使用变分正则化方法,通过双层学习来学习合适的超参数,同时提出了能够收敛到损失函数超参数的稳定点的近似回溯线搜索算法,并在变分正则化问题的超参数估计中展示了其有效性和可行性。
Aug, 2023
本文提出了一种基于损失函数进行梯度重新标度的步长自适应方案(Stepsize Adaptation Scheme),以达到对损失的预测进度的固定要求。作者用 Adam 和 Momentum 优化器进行了实验,通过该方案改进了它们的性能,在多种网络结构和数据集上进行了验证。与定常步长相比,增强优化器在不增加计算量的情况下,表现稳定优于定常步长优化器,甚至是最佳的优化器。
Feb, 2018
使用较小的学习率和 SGD 最陡峭的方向进行训练可以提高模型的训练速度和泛化能力,而较大的学习率或较小的批量大小将导致 SGD 进入更宽的区域。
Jul, 2018
本文探讨了时下最先进神经网络的损失函数,以及常用随机梯度下降变体如何优化这些损失函数,探讨中发现每个优化算法在鞍点处会做出不同的选择,从而得出每个算法在鞍点处的特征选择假设。
Dec, 2016
本文提出了一种名为 PoNoS 的算法,采用非单调线搜索方法和 Polyak 初始步进大小,可优化 SGD/Adam 的收敛速度和一般性能,初步运行对比表明此基于线搜索的算法优于传统算法。
Jun, 2023