加权采样的批次随机梯度下降
本文主要研究了随机梯度下降法的线性收敛性,得到了更好的收敛保证,并且阐述了使用重要性采样在其他场景中进一步提高收敛速度的方法。研究基于随机梯度下降法与随机 Kaczmarz 算法之间的联系,可以将各自的研究成果相互借鉴。
Oct, 2013
本文探讨了随机梯度下降算法的加速收敛方法,提出了一种自适应加权平均方案,并提供了非渐近收敛的统计保证和在线推断方法。最终的结论表明,该自适应加权平均方案不仅在统计率上是最优的,而且在非渐近收敛方面也具有有利的效果。
Jul, 2023
本文定义了用于 graduated optimization 的一类新的非凸函数,讨论了其充分条件,并对 graduated optimization 算法的收敛性进行了分析。研究发现,带有 mini-batch 随机梯度的随机梯度下降 (SGD) 方法可以使函数平滑的程度由学习率和 batch size 决定。此发现从 graduated optimization 的角度提供了理论洞察,解释了为何大批量大小会陷入尖锐的局部最小值,以及为何逐渐减小的学习率和逐渐增大的批量大小优于固定的学习率和批量大小,并给出了最佳的学习率调度方法。此外,分析了一种新的 graduated optimization 框架,该框架使用逐渐减小的学习率和逐渐增大的批量大小,并报告了支持我们理论发现的图像分类的实验结果。
Nov, 2023
本文探讨了在没有光滑假设的情况下,以及通过运行平均方案将 SGD 迭代转换为具有最佳优化精度的解决方案的性能,并证明了对于凸非光滑目标函数,最后一个 SGD 迭代的次优性的程度随 T 的轮次按 O(log(T)/sqrt(T))缩放,对于非光滑强凸情况,次优性的程度随 T 按 O(log(T)/ T)缩放。此外,本文提出了一种新的简单平均方案,并提供了一些实验说明。
Dec, 2012
提出 SGD 收敛的通用简单定理,该定理可描述与特定概率法相关的各种 SGD 变体的收敛性。该定理是第一次执行这种分析,大多数 SGD 的变体以前从未明确考虑过。论文依赖于最近引入的期望平滑性的概念,并不依赖于随机梯度方差的统一界限。
Jan, 2019
本论文介绍了通过使用随机梯度算法来近似解决高斯过程中线性系统求解的限制,并利用影响收敛的隐含偏差的谱特点来解释结果,最终在大规模数据集上取得了最先进的预测性能和不确定性估计。
Jun, 2023
该研究探讨了在随机梯度下降中广泛使用的平均方案的好处。特别是,通过对最小二乘回归的随机逼近问题进行非渐进超额风险分析,提供了这些方案的性能保证,并提出了高度可并行化的随机梯度下降方法。同时,该研究认为,为了保证最小极大风险,针对混浊噪声的步长必须是噪声属性的一个函数。
Oct, 2016
我们提出了一种名为 Stochastic Multiple Target Sampling Gradient Descent (MT-SGD) 的方法,用于从多个未归一化的目标分布中进行采样。通过逐渐调整中间分布的流向多个目标分布,使采样粒子向目标分布的联合高似然区域移动,此方法在多目标优化问题上获得了良好的表现。
Jun, 2022
提出了一种利用小批量方案改进半随机梯度下降(S2GD)方法的 mS2GD,该方法主要用于最小化一个由很多光滑凸函数的平均值和一个简单的非光滑凸正则化器组成的强凸函数,分析表明,该方法在具有小批量效应和简单并行实现方案的情况下,可以加速算法的收敛过程。
Apr, 2015