神经网络的抛物线逼近线搜索

Mar, 2019

Parabolic Approximation Line Search for DNNs

Maximus Mutschler, Andreas Zell

TL;DR本文提出一种通过在 batch loss 负梯度方向上进行一维抛物线逼近的简单且强大的线性搜索方法来自动找到深度学习优化的最优步长，并在多个数据集和架构上进行了全面的评估。

Abstract

A major challenge in current optimization research for deep learning is to automatically find optimal step sizes for each update step. The optimal step size is closely related to the shape of the loss in the upda

deep learning optimization step size line search gradient

发现论文，激发创造

随机梯度下降的非凸优化中批处理大小与所需步数的关系

随机梯度下降是最简单的深度学习优化器之一，该论文通过蒙特卡洛方法对其进行了收敛性分析，并证明了使用 Armijo 线搜索的随机梯度下降在非凸优化中的性能优于其他深度学习优化器，同时还发现了批量大小对训练的影响，批量大小越大，需要的步数越少，但在成本和梯度计算的角度，存在一个临界批量大小最能降低成本。

Jul, 2023

无痛随机梯度：插值，线性搜索和收敛速率

本文提出了一种使用线性搜索技术自动设置步长的随机梯度下降算法，在数据插值设置中，使用 Armijo 线性搜索方法的 SGD 实现凸和强凸函数的确定性收敛率，同时提出了一种 Lipschitz 线性搜索策略的随机额外梯度的算法，该算法在满足嵌入条件的非凸问题和鞍点问题的情况下实现了线性收敛率，并在标准分类任务上表现出了良好的性能。

May, 2019

深度学习随机一阶方法的逐层自适应步长

我们提出了一种新的逐层自适应步长过程，用于解决深度学习中用于最小化经验损失函数的随机一阶优化方法中需要调整学习率的问题，并且实验证明这种方法比 fine-tuned 学习率的方法以及一些常见的一阶或二阶优化方法更有效。

May, 2023

优化大规模神经网络训练的线搜索方法

使用线搜索方法改进了传统随机梯度下降技术，通过在搜索方向中整合 ADAM 的动量项，实现了高效的大规模训练，提高了性能。

Mar, 2024

动态双层学习与不精确线搜索

使用变分正则化方法，通过双层学习来学习合适的超参数，同时提出了能够收敛到损失函数超参数的稳定点的近似回溯线搜索算法，并在变分正则化问题的超参数估计中展示了其有效性和可行性。

Aug, 2023

L4：深度学习实用的基于损失的步长自适应算法

本文提出了一种基于损失函数进行梯度重新标度的步长自适应方案（Stepsize Adaptation Scheme），以达到对损失的预测进度的固定要求。作者用 Adam 和 Momentum 优化器进行了实验，通过该方案改进了它们的性能，在多种网络结构和数据集上进行了验证。与定常步长相比，增强优化器在不增加计算量的情况下，表现稳定优于定常步长优化器，甚至是最佳的优化器。

Feb, 2018

深度神经网络损失函数的极限方向与随机梯度下降步长的关系

使用较小的学习率和 SGD 最陡峭的方向进行训练可以提高模型的训练速度和泛化能力，而较大的学习率或较小的批量大小将导致 SGD 进入更宽的区域。

Jul, 2018

深度神经网络损失曲面优化的实证分析

本文探讨了时下最先进神经网络的损失函数，以及常用随机梯度下降变体如何优化这些损失函数，探讨中发现每个优化算法在鞍点处会做出不同的选择，从而得出每个算法在鞍点处的特征选择假设。

Dec, 2016

在过度参数化模型中放松随机线搜索

本文提出了一种名为 PoNoS 的算法，采用非单调线搜索方法和 Polyak 初始步进大小，可优化 SGD/Adam 的收敛速度和一般性能，初步运行对比表明此基于线搜索的算法优于传统算法。

Jun, 2023

神经网络梯度下降训练中的普适性尺度律

本文通过对梯度下降训练的神经网络的优化轨迹进行研究，展示了学习轨迹可以用大训练时间的显式渐近特征描述。

May, 2021