- 压缩分布的最小二乘回归:收敛速度与联邦学习应用
本文研究了压缩对机器学习中的随机梯度算法的影响,重点分析了几种无偏压缩算子的收敛速度差异,并延伸到联邦学习领域。
- 使用随机梯度下降从高斯过程后验分布中进行采样
本论文介绍了通过使用随机梯度算法来近似解决高斯过程中线性系统求解的限制,并利用影响收敛的隐含偏差的谱特点来解释结果,最终在大规模数据集上取得了最先进的预测性能和不确定性估计。
- ICML随机梯度剪裁的稳定性和收敛性:超越 Lipschitz 连续性和平滑性
本文提出了一种修剪随机梯度(子)梯度法(SGD)的收敛性研究,特别是对于具有快速增长次梯度的非光滑凸函数。研究表明,修剪对 SGD 的稳定性有益,并且修剪 SGD 算法在许多情况下具有有限的收敛速率。同时,我们还研究了带有动量的修剪方法的收 - Proximal Gradient TD 算法的有限样本分析
本文旨在分析梯度时序差分学习(GTD)算法族的收敛速率,将 GTD 方法制定为原始 - 对偶鞍点目标函数的随机梯度算法,并进行鞍点误差分析以获得其性能的有限样本界限,提出了两种改进的算法,即投影 GTD2 和 GTD2-MP,理论分析结果表 - 通过松弛最优控制的均场神经 ODE
本文介绍了一种基于控制论、深度学习和统计抽样理论的框架,来研究深度神经网络和神经 ODE 模型,包括 Mean-Field Langevin 动力学的梯度流、时间一致传播的混沌性等问题,并提供了与学习速率、粒子数 / 模型参数和梯度算法迭代 - 神经网络的平均场 Langevin 动力学和能量景观
研究使用梯度算法时非凸问题的抽象理论,利用无穷维度状态空间和概率密度函数最小化能量函数,并研究该梯度流的收敛性。
- 随机非凸优化的混合随机梯度下降算法
本文提出了使用混合随机估算器设计的混合随机梯度算法来解决非凸期望问题,该算法可以获得更好的复杂度,同时考虑不同的扩展,如使用自适应步长和不同的迭代方式。在使用两个非凸模型进行了多个数据集上的比较。
- SSRGD: 逃离鞍点的简单随机递归梯度下降
我们分析了用于优化非凸问题的随机梯度算法及其中简单的 SSROD 算法,在此基础上证明了 SSROD 算法可以有效地寻找非凸问题中的局部最小值点,并给出了相关的复杂度分析。
- 随机修正方程和随机梯度算法动力学 I:数学基础
该研究发展了随机修正方程 (SME) 框架的数学基础,以便于分析随机梯度算法的动态,其中后者由一类噪声参数很小的随机微分方程逼近。研究表明,这种逼近可以被理解为一种弱逼近,从而在随机目标的一般设置下,得出了关于随机梯度下降、动量 SGD 和 - 高斯混合模型的另一种 EM 方法:批量和随机黎曼优化
该论文提出了一种基于 Riemannian 优化方法的高斯混合模型参数估计算法,与 EM 算法相比表现更优,同时给出了非渐近收敛分析的随机优化方法。
- 深度学习的鲁棒自适应随机梯度方法
本文提出了一种自适应学习率算法,该算法利用了损失函数的随机曲率信息自动调整学习率,并且提出了一种新的方差缩减技术以加速收敛,在深度神经网络实验中,相比于流行的随机梯度算法获得了更好的性能。
- 随机修正方程与自适应随机梯度算法
通过连续时间随机微分方程,采用最优控制理论,提出一种新的自适应超参数调节策略,应用于随机梯度算法,表现具有竞争性和稳健性。这为随机梯度算法的分析和设计提供了一种通用方法。
- ICLRADASECANT:用于随机梯度的鲁棒自适应割线法
本文介绍一种新的自适应学习率算法,该算法利用曲率信息自动调整学习率,并提出一种新的方差缩减技术来加速收敛。在深度神经网络的初步实验中,与常见的随机梯度算法相比获得了更好的性能。
- 利用 SGD 处理异构噪声数据的数据学习
探讨来自不同异构来源的数据的学习方法,提出了用于这种模型学习的随机梯度算法。实验表明该方法在处理杂音水平较低到中等的数据时效果优于使用单个学习速率或仅使用两个数据集中较少有杂音的数据集。
- 无强凸性的方差缩减随机梯度线性收敛
本研究介绍了 Prox-SVRG 及其投影变体 VRPSG 算法,用于解决一类在机器学习中广泛使用的非强凸优化问题。通过 SSC 不等式的使用,本文证明了两种算法可以在无强凸性的情况下实现线性收敛率。