提出了一种方法,通过元学习未来梯度生成器来预测未来数据分布的梯度信息,从而训练推荐模型并减小时序领域广义误差,相比 Batch Update 算法,该算法在本地遗憾中的梯度变异项中实现更小的时序领域广义误差。
Sep, 2022
我们提出了一个基于分离随机逼近框架的在线学习算法,其中对于某些具有线性特性的模型参数,我们采用递归最小二乘(RLS)算法进行更新,然后根据更新后的线性参数,采用随机梯度法(SGD)更新非线性参数,该算法可以理解为一种随机逼近版块坐标梯度下降方法,已经在非凸情况下获得全局收敛性,数值实验表明,该方法提高了收敛速度并在与其他流行学习算法比较时产生更稳健的训练和测试性能,此外,我们的算法对学习速率不太敏感并且优于最近提出的 slimTrain 算法。
May, 2023
本文分析并评估了一种采用逐坐标调整学习率的在线梯度下降算法,该算法可被视为带有对角先决条件的批量梯度下降的在线版本。实验结果表明,该算法在大规模机器学习问题中与最先进的算法相竞争,并带来更强的遗憾边界。
Feb, 2010
本文提出了一种自动调整多个学习率的方法,以使期望误差最小化,该方法依赖于样本之间的局部梯度变化,并在凸学习任务和非凸学习任务中证明了该算法具有与 SGD 或其他自适应方法相同的性能。
Jun, 2012
在线学习不仅仅是记住一切。通过使用自适应在线学习中近期开发的技术重新审视折扣遗憾的经典概念,我们提出了一个能够优雅地在新数据到达时遗忘历史的关键算法,改进了传统的非自适应算法,即使用固定学习率的梯度下降算法。具体而言,我们的理论保证不需要任何除了凸性之外的结构假设,该算法在次优超参数调整时可以证明是鲁棒的。通过在线符合预测,我们进一步展示了这些好处,它是一个具有集合成员决策的下游在线学习任务。
Feb, 2024
本文介绍一种通用的方法来提高基于梯度的优化算法的收敛速度,通过将该方法应用到随机梯度下降、带有 Nesterov 动量的随机梯度下降和 Adam 等常用算法上,我们展示了该方法在一系列优化问题中的有效性,大大减少了对这些算法的初始学习率进行手动调整的需求;我们的方法通过使用与更新规则自身的学习率相关的梯度在优化过程中动态更新学习率,计算这个 “超梯度” 需要很少的额外计算,只需要将原始梯度的一个额外副本存储在内存中,并且只依靠于反向模式自动微分提供的内容。
Mar, 2017
研究了 SGD 算法在高维参数空间下最简单在线版本的性能,通过对样本数量的阈值来确定参数估计的一致性,其阈值是多项式维度的,取决于信息指数。
Mar, 2020
我们提出了一种具有鲁棒性、适用于批量和随机梯度下降的学习率的非线性更新规则,该方法可实现基于梯度观察的学习率逐步降低,最终达到高效收敛。
Mar, 2018
通过利用指数步长和随机线性搜索等技术,使得随机梯度下降算法适应不同噪声水平和问题相关的常数,可以在强凸函数的条件下,取得与理论最优相近的收敛速度,同时能够有效地处理噪声和数据不凸的情况。
Oct, 2021
本研究考虑了具有时变阶段成本和附加切换成本的在线凸优化问题, 提出了一种名为 Receding Horizon Inexact Gradient (RHIG) 的基于梯度的在线算法来改善其性能,该算法只考虑最多 $W$ 步预测,以避免长期预测误差对在线性能的影响,并将其应用于随机预测误差模型和四轴飞行器跟踪问题中进行了数值测试。
Nov, 2020