对角化SGD:通过参数重设和平滑实现快速与收敛的非可微模型SGD
本文提出了一种加速的非平滑随机梯度下降算法- ANSGD,该算法利用常见非平滑损失函数的结构来实现一类问题(包括SVM)的最优收敛速率,是第一个能够实现最优O(1/t)率的随机算法来最小化非平滑损失函数的算法,经实证比较表明,ANSGD明显优于以前的次梯度下降算法,包括SGD。
May, 2012
本文探讨了在没有光滑假设的情况下,以及通过运行平均方案将SGD迭代转换为具有最佳优化精度的解决方案的性能,并证明了对于凸非光滑目标函数,最后一个SGD迭代的次优性的程度随T的轮次按O(log(T)/ sqrt(T))缩放,对于非光滑强凸情况,次优性的程度随T按O(log(T)/ T)缩放。此外,本文提出了一种新的简单平均方案,并提供了一些实验说明。
Dec, 2012
本文介绍如何将随机梯度下降算法与调整参数应用于概率建模中的近似后验推断,通过最小化数据生成分布与目标后验分布之间的KL散度作为理论框架,让SGD有效地作为贝叶斯推断的一种方法,发现其可以成为概率模型优化超参数的一种新途径。
Feb, 2016
提出了一种新的针对非可微密度模型的随机变分推断算法,通过对可微区域应用标准的重新参数化技巧、对边界区域应用流形采样,估计并得出梯度的高效率降低了方差并保持偏差的不变。
Jun, 2018
本研究针对带图等情景,探讨Stochastic gradient descent (SGD)中consitent estimator的效用及其相对于unbiased estimator的同等收敛性。实验证明,consistent estimator在strongly convex, convex, and nonconvex目标下均表现良好,这一研究有助于进一步提高SGD的效率并设计大规模图的高效训练算法。
Jul, 2018
本文提出了一种统一分析的变体的近端随机梯度下降法,包括了未进行方差缩减、重要性抽样、小批量抽样、量化、坐标子采样等方法,同时获得了近端随机梯度下降法和随机化坐标下降法、方差缩减和非方差缩减的统一理论,提出了五种新变体的近端随机梯度下降法,并通过数值实验证明了其性质。
May, 2019
本文研究了随机梯度下降在对角线线性网络上的动态规律,证明了它比梯度下降的解具有更好的泛化性能,并发现收敛速度控制偏见效应的大小,结果支持了结构化噪声可以引起更好泛化性能的理论结论。
Jun, 2021
本文分析了带偏估计器的随机梯度下降(BiasedSGD)算法在凸和非凸环境下的效果并比较了带偏估计器和无偏估计器的优缺点,同时提出了一组新的比以往任何假设更弱的假设,并通过实验结果验证了理论发现。
May, 2023
本研究论文探讨了随机梯度下降(SGD)方法及其变种在训练非光滑激活函数构建的神经网络中的收敛性质,提出了一种新的框架,分别为更新动量项和变量分配不同的时间尺度。在一些温和条件下,我们证明了我们提出的框架在单一时间尺度和双时间尺度情况下的全局收敛性。我们展示了我们提出的框架包含了许多著名的SGD类型方法,包括heavy-ball SGD、SignSGD、Lion、normalized SGD和clipped SGD。此外,当目标函数采用有限和形式时,我们证明了基于我们提出的框架的这些SGD类型方法的收敛性质。特别地,在温和的假设条件下,我们证明了这些SGD类型方法以随机选择的步长和初始点找到了目标函数的Clarke稳定点。初步的数值实验表明了我们分析的SGD类型方法的高效性。
Jul, 2023
通过采用分别基于重采样的多个随机梯度下降和在线方法,我们实现了对于随机梯度下降解的置信区间的构建,通过最近被称为廉价引导思想和SGD的Berry-Esseen型界限,我们显著减少了计算量,并绕过了现有分批方法中复杂的混合条件。
Oct, 2023