通过赌博训练深度网络而无需学习率

NIPSMay, 2017

通过赌博训练深度网络而无需学习率

Training Deep Networks without Learning Rates Through Coin Betting

Francesco Orabona, Tatiana Tommasi

TL;DR本文提出一种基于投掷硬币的随机梯度下降（SGD）优化算法，相较于传统方法，该方法不需要任何学习率设置，不适应任何学习率，且在凸函数和拟凸函数中证明了其理论收敛性，并且在实验中优于其他主流 SGD 算法。

Abstract

deep learning methods achieve state-of-the-art performance in many application scenarios. Yet, these methods require a significant amount of hyperparameters tuning in order to achieve the best results. In particular, tuning the learning rates in the stochastic →

deep learning hyperparameter tuning stochastic gradient descent learning rate optimization process

发现论文，激发创造

加密币赌注与无需参数的在线学习

该研究在 Hilbert 空间中，通过预测对手行为的赌博机制构建了一种简单的无需调参数的学习算法，用于在线线性现行优化和专家建议学习，实现了优质的后悔约束和分析复杂度。

Feb, 2016

深度学习的鲁棒自适应随机梯度方法

本文提出了一种自适应学习率算法，该算法利用了损失函数的随机曲率信息自动调整学习率，并且提出了一种新的方差缩减技术以加速收敛，在深度神经网络实验中，相比于流行的随机梯度算法获得了更好的性能。

Mar, 2017

免调节的随机优化

大规模机器学习问题中，通过松散提示参数信息，提出了能够自动调整的 “无需调参” 的算法，能够与最优调参优化算法在多对数因子上实现性能匹配，特别是对于有界优化领域，证明了这种匹配是可能的，并且多个现有算法已经实现了该特性。然而，在无界领域中，证明了无需调参优化是不可能的，但在噪声分布足够良好的情况下，通过一些算法如 DoG 和 DoWG，可以满足无需调参的条件。对于查找光滑且可能非凸函数的稳定点，提出了一种改进的随机梯度下降（SGD）变体，以仅有多对数成本匹配调参 SGD 的最佳已知高概率收敛率，然而，也证明了任何算法都不可能满足与调参 SGD 高概率收敛率相匹配的最优期望收敛率。

Feb, 2024

别再纠结学习率了

本文提出了一种自动调整多个学习率的方法，以使期望误差最小化，该方法依赖于样本之间的局部梯度变化，并在凸学习任务和非凸学习任务中证明了该算法具有与 SGD 或其他自适应方法相同的性能。

Jun, 2012

学习率自适应的随机梯度下降优化方法：深度学习偏微分方程数值模拟与收敛分析

我们提出并研究了一种基于经验估计目标函数值的学习率自适应方法，用于随机梯度下降优化方法，并在多个神经网络学习问题中实施。我们证明了学习率自适应变体的 SGD 优化方法对于一类简单的二次最小化问题收敛于最小化器。

Jun, 2024

用梯度下降训练学无梯度下降的学习

通过比较基于贝叶斯优化的算法，我们研究了在简单合成函数上训练的循环神经网络优化器的性能，发现这些训练后的优化器在不同的黑盒函数优化、超参数整定和全局优化基准测试中表现优异。

Nov, 2016

利用统计学自动化随机优化

提出一种基于统计检验的适应性方法，通过检测随机梯度下降算法的动态变化达到均衡状态后衰减学习率，解决了手动调参的繁琐问题，实现了类似于手动调参的性能并在多个深度学习任务中得到了验证。

Sep, 2019

通过参数缩放解释自适应梯度方法对无学习率优化的解读

我们提出解决在训练深度神经网络中用于自适应梯度方法的学习率估计的挑战。我们将自适应梯度方法解释为应用于参数缩放网络的最陡下降方法，并提出了无学习率的自适应梯度方法。实验结果验证了该方法的有效性，并证明在各种情况下，其性能与手动调优的学习率相当。这项工作扩展了无学习率方法的适用性，增强了自适应梯度方法的训练效果。

Jan, 2024

利用硬币投注改进强适应在线学习

本文提出了一种新的无需额外参数的在线学习算法，适用于不断变化的环境，并获得了至少 sqrt (log (T)) 倍于已有算法的强适应性遗憾界。经实验证明，在专家建议和度量学习场景中，我们的算法优于现有的最先进方法。

Oct, 2016

D - 适应学习实现无学习率学习

本研究利用单循环方法，不需要关于距离 D 的知识，提出了一种对于复杂的凸 Lipschitz 函数时可以自适应地匹配手动调整的学习率的梯度下降算法，并且在大规模视觉和语言问题等多个领域中取得了优异的实际表现。

Jan, 2023