基于双曲正切衰减的随机梯度下降在分类中的应用
学习率调度器是在模型训练过程中变化搜索步长的预定指令集。本文介绍了一种新的对数方法,通过随机梯度下降对步长进行严格的重新启动。循环对数退火更积极地实施重新启动模式,可能在在线凸优化框架上允许更贪婪的算法的使用。该算法在 CIFAR-10 图像数据集上进行了测试,并表现出与余弦退火在大型变压器增强残差神经网络上类似的性能。未来的实验将涉及在生成对抗网络中测试调度器,并通过更多实验找到调度器的最佳参数。
Mar, 2024
本文从超参数优化的角度研究了适应特定任务的学习率进度的拟合问题,并通过介绍超梯度的梯度结构,提出了 MARTHE 算法,它能够使用优化轨迹中的过去信息来模拟未来的行为,从而插值最近的两种技术,从而产生更加稳定、泛化能力更强的学习率进度。
Oct, 2019
通过对 BN 的权重衰减及动量模型的应用,本文发现深度学习算法能够成功应用于具有指数增长学习速率的训练方式,证明了这种训练方式在各种标准结构中具有优秀的表现,并给出了数学解释和实例验证。
Oct, 2019
提供了 Eigencurve,第一个可以在在底层 Hessian 矩阵的特征值分布呈倾斜分布时,为 SGD 优化二次目标达到了 minimax 最优收敛速率(最多提升一个常数),实现其近似的两个简单的学习速度计划,对于某些问题,其形状类似于余弦衰减的优化程序,对于其他情况,所提出的计划优于余弦衰减。
Oct, 2021
本文提出了一种名为 “自适应调度” 的算法,该算法利用奇异值得出的两个指标 “知识增益” 和 “映射条件”,并将 SGD 学习率与知识增益的变化率成比例地调整,实验表明该算法具有更快的收敛速度和更好的泛化性能。
Jun, 2020
我们介绍了一种新颖的动态学习率调度方案,旨在简化实践中手动而耗时的调度。我们的方法基于估计局部最优步长,确保在当前步骤的随机梯度方向上实现最大下降。我们首先在平滑的非凸随机优化环境中建立了我们方法的理论收敛边界,与最新的边界相匹配,仅假设对平滑参数具有知识。然后,我们提出了我们算法的实际实现,并在不同数据集和优化算法上进行系统实验,将我们的方案与现有的最新学习率调度器进行比较。我们的发现表明,与现有方法相比,我们的方法需要最少的调整,消除了辅助手动调度和预热阶段的需要,并实现了具有大大减少参数调整的可比性能。
Nov, 2023
这项工作研究了随机梯度下降对于流式最小二乘回归问题的最终迭代行为并探讨使用 Step Decay 调度方案实现可接受的改进,同时发现 SGD 的最终迭代行为不如期望,并强调了随机梯度下降固定时间限制下确定最优学习率方案的复杂性。
Apr, 2019
本文介绍了一种名为 “循环学习率” 的新方法,它可以消除实验找到全局学习率的最佳值和时间表的需要,从而在分类准确度方面取得了提高。此外,本文还描述了一种估算 “合理边界” 的简单方法。该方法可以应用于训练神经网络,并且已在多个数据集和网络结构上进行了实验。
Jun, 2015
研究指出指数步长和余弦步长是自适应噪声水平的,不需要知道噪声水平和调整超参数就可以达到几乎最佳性能。探讨了这两种优化策略的收敛速度和表现,实验证明它们最多只需要调整两个超参数就可达到优秀的表现。
Feb, 2020