- 通过关键动量促进记忆增量 Adam 中的探索
提出了一种新的 Adam 的记忆增强版本,通过在训练过程中使用关键动量项的缓冲区,推动探索更平坦的最小值,从而提高了标准监督语言建模和图像分类任务的性能。
- 一种新型双指数移动平均双向查找的 自适应和非自适应动量优化器
本研究提出了一种结合逆向和正向视角的新型 Admeta 优化器框架,该框架基于两种经典优化器 SGD 和 Adam,通过一种动态前瞻策略与指标替换算法,提高了神经网络的参数优化能力.
- 在过度参数化模型中放松随机线搜索
本文提出了一种名为 PoNoS 的算法,采用非单调线搜索方法和 Polyak 初始步进大小,可优化 SGD/Adam 的收敛速度和一般性能,初步运行对比表明此基于线搜索的算法优于传统算法。
- 探寻变形金刚为何 Adam 比 SGD 更快收敛
这篇论文提出了一种新的方向锐度概念,阐述了优化算法与更新步长的方向锐度的关系,发现随机梯度下降在这方面表现远差于自适应算法,因此建议使用坐标剪裁该问题,并证明了该技术可用于提高深度学习优化的收敛速度。
- 大规模机器学习问题的随机比率跟踪算法
本文提出了一种适应性步长选择的算法,基于传统的非线性优化技术,通过分析结果表明,该算法可生成与手动调节最佳步长相当的步长,并产生期望收敛于解的固定邻域的迭代。
- 生成对抗网络的自适应共识优化方法
本研究提出了基于 ADAM 和 RMSprop 的二阶梯度方法用于生成对抗网络的训练,与其他二阶方法相比,该方法无需解线性系统或添加混合二阶导数项,与一阶方法相比具有更好的生成图像质量和可比较的 Inception 分数。
- D - 适应学习实现无学习率学习
本研究利用单循环方法,不需要关于距离 D 的知识,提出了一种对于复杂的凸 Lipschitz 函数时可以自适应地匹配手动调整的学习率的梯度下降算法,并且在大规模视觉和语言问题等多个领域中取得了优异的实际表现。
- Adam: 自适应暗示例的密集检索蒸馏
提出了 ADAM 知识蒸馏框架,通过自适应暗示例抽象出更多黑暗知识以进行蒸馏,同时利用基于自我进程的自适应蒸馏策略来集中高质量实例的内容以帮助模型更好地学习,实验表明 ADAM 蒸馏框架有效
- 稳定性边缘的自适应梯度方法
本文揭示了关于 Adam 算法等自适应梯度方法在深度学习中的训练动态的知识匮乏。研究结果发现,在 Full-batch 和足够大的 Batch 设置中,Hessian 预处理的最大特征值通常会达到某个数值,即梯度下降算法的稳定阈值。此外,即 - GradInit:学习为稳定和高效的训练初始化神经网络
本文提出了一种基于 SGD 或 Adam 的预设超参数使得每个网络层的范数调整到最小损失值下的简单启发式算法 GradInit,旨在加速卷积结构和 Transformer 等神经网络模型的收敛和测试效果,而且还能提高模型训练的稳定性。
- 深度学习中随机梯度下降泛化优于 ADAM 方法的理论解释
该研究旨在通过分析局部收敛行为来解释为什么类似 ADAM 的适应性梯度算法的泛化性能比 SGD 差,尤其是它们在梯度噪声方面存在重尾现象;研究结果表明,SGD 相比于 ADAM 能更好地从局部最小值中逃脱,并且在平缓的最小值处表现更好。实验 - 深度学习优化器基准测试 - 穿越拥挤的山谷
本文通过对 15 种深度学习优化器的广泛基准测试,得出以下结论:(i) 优化器的性能因任务而异。(ii) 使用默认参数评估多个优化器大致与调整单个优化器的超参数一样好。(iii) Adam 仍然是一个强有力的竞争者,其它新的方法未能显著并持 - ICML自适应惯性:解离自适应学习率和动量的影响
通过研究神经网络中的优化算法,提出了一个名为 “自适应惯性” 的新方法,能够更好地训练神经网络并提高泛化性能。
- 带有规范化层学习的球形透视
本文介绍了一个用几何角度来研究具有 Normalization Layers 的神经网络优化的球形框架,首先得出了 Adam 的第一个有效学习率表达式,并表明在存在 NLs 的情况下,仅执行 SGD 实际上等效于限制在单位超球面上的 Ada - KDDMaxVA:通过最大化梯度观测方差快速调整步长
本文提出一种自适应学习率原则,通过将 Adam 中的平方梯度的运行平均替换为加权平均来实现。该方法比解决 Adam 中不稳定或过大的自适应学习率的 AMSGrad 和 AdaBound 等方法更有效,在机器翻译,自然语言理解和大批量预训练 - AdaX: 指数长期记忆的自适应梯度下降
本文发现 Adam 算法的快速收敛可能会导致算法陷入局部极小值,为解决这一问题,我们提出了 AdaX 算法,与 Adam 不同之处在于 AdaX 能够在训练过程中积累过去的梯度信息,实现自适应调节学习率,同时本文也证明了 AdaX 算法在凸 - Adam 型算法的一种新后悔分析
本文探讨 Adam 及其变种(AMSgrad、AdamNC 等)之间的理论实践差距,提出一种新的框架,通过这个框架,可以在不需要进一步的假设条件下,推导出具有常数 beta1 的最优数据相关遗憾界。
- 关于马尔科夫采样下 Adam 型强化学习算法的非渐近收敛性
本文第一次为 policy gradient 和 temporal difference learning 两个基本的强化学习算法 (并带有 AMSGrad 更新) 提供了收敛性分析,特别关注于马尔科夫采样,证明 PG-AMSGrad 和 - 一种自适应瞬时边界方法用于随机学习
本文提出了 AdaMod 方法来限制 Adam 方法中出现的极端学习率问题,实现深度神经网络的稳定而高效训练,对于复杂网络,如 DenseNet 和 Transformer,与 Adam 方法相比,AdaMod 方法带来了显著的改进。
- ICML优化器基准测试需考虑超参数调整
本文的研究结果表明,Adam 优化器是一种实用的解决方案,尤其在低预算场景中,因为评估不同优化器的性能必须考虑到超参数搜索的计算成本和难度。