- 在线学习中 FTRL 的简单自适应学习率与 Θ(T^{2/3}) 的最小 max 遗憾及其在最佳两全之间的应用
通过设计自适应的正则化器和学习率,FTRL 是一个强大的框架,适用于各种在线学习问题。本文提出了一个新的自适应学习率框架来解决具有 Θ(T^{2/3}) 最小最大遗憾的问题,并应用于部分监控和图形赌博两个重要的间接反馈问题。
- MoMo: 动量模型适应学习率
通过使用新的自适应学习率,开发了带有动量方法的 MoMo and MoMo-Adam,并增强了模型通过使用批次损失和梯度来建立模型和较低下限估计的模型,实现迭代优化影像分类模型,相较于 SGDM 和 Adam,提高了准确性和鲁棒性。
- BiAdam:快速自适应双层优化方法
在本论文中,我们提出了一种新的快速自适应双层框架 (BiAdam) 来解决随机双层优化问题,其中外层问题可能是非凸的,内层问题是强凸的。使用统一自适应矩阵,包括多种自适应学习率,并可灵活使用动量和方差减少技术。同时,我们提出了 BiAdam - 自适应带动量的 SGD 高概率分析
本文对机器学习应用中广泛使用的随机梯度下降及其变种算法在非凸优化问题中的收敛性做了一系列的理论分析,证明了在弱假设条件下,Delayed AdaGrad with momentum 算法可高概率收敛于全局最优解。
- Local AdaAlter: 基于自适应学习率的通信高效性随机梯度下降
本篇论文提出了一种新的 SGD 变体算法,降低了通信开销及提高自适应学习率,经实验证明,该算法显著降低了通信开销,进而缩短了 1B 字数据集的训练时间 30%。
- 一种自适应瞬时边界方法用于随机学习
本文提出了 AdaMod 方法来限制 Adam 方法中出现的极端学习率问题,实现深度神经网络的稳定而高效训练,对于复杂网络,如 DenseNet 和 Transformer,与 Adam 方法相比,AdaMod 方法带来了显著的改进。
- 基于动量的方差减少在非凸 SGD 中的应用
STORM 是一种新的算法,可以用于非凸优化中的方差缩减技术,其不需要任何 batch,具备自适应学习率,相对其他技术,具备更简单易用的优点。
- 在线条件下减少遗憾
本文分析并评估了一种采用逐坐标调整学习率的在线梯度下降算法,该算法可被视为带有对角先决条件的批量梯度下降的在线版本。实验结果表明,该算法在大规模机器学习问题中与最先进的算法相竞争,并带来更强的遗憾边界。