研究了在 SGD 下如何进行统计推断以及使用其构建渐近无偏估计和置信区间,最终提出了一种高维线性回归算法,可以计算稀疏回归系数和置信区间。
Oct, 2016
本文研究了相位恢复问题,并提出一种基于随机梯度下降的方法,可以从任意初始点收敛,证明了其有效性并应用于单指数模型的求解,并提出了新的随机过程理论中的概念,可以用于更广泛的非凸优化领域。
Oct, 2019
本文研究证明了随机梯度下降在非凸学习中,无需统一梯度有界性假设也能达到最优收敛率的情况,并在一定程度上对于一般非凸目标函数和梯度主导的目标函数实现了几乎必然收敛。特别地,在方差为零的情况下可以得到线性收敛。
Feb, 2019
本篇论文使用类似于期望光滑性假设的新方法来研究随机梯度下降法在非凸优化中的收敛率,并在考虑多种采样策略和小批量大小的情况下,探讨有限和优化问题的影响。
Feb, 2020
使用随机梯度下降(SGD)算法对神经网络进行培训,研究表明 SGD 在优化高维度非凸成本函数方面比梯度下降(GD)算法更为有效。
Sep, 2023
本文研究梯度下降和随机梯度下降等算法在机器学习中的应用,分析了这些算法在非凸优化问题中收敛到驻点的情况,提出了变形的算法可以更高效地避免出现维数灾难,从而沟通了理论和实践。
本文提出了一种高效的分布式随机优化方法,通过结合适应性与方差约减技术,从而实现任何串行在线学习算法的并行计算,能够在不需要光滑参数的先验知识的情况下实现最优收敛速率,同时通过 Spark 分布式框架的实现能够对大规模逻辑回归问题进行高效处理。
Feb, 2018
研究了梯度方法在基础随机凸优化条件下的泛化性能,并关注其与维数的依赖关系。针对全批量梯度下降(GD),通过构建学习问题,在维数为 $ d = O(n^2)$ 的情况下,可以证明经过调整以达到经验风险最优表现的典型 GD(使用 n 个训练样本)在具有常数概率的情况下,收敛为近似经验风险最小化器,且其相对于总体风险具有 Ω(1)的过量风险。这个界限对于标准 GD 需要达到非平凡测试误差的训练样本数量有一个下界 Ω(√d),回答了 Feldman(2016)和 Amir,Koren 和 Livni(2021b)提出的一个开放问题,表明非平凡的维数依赖性是不可避免的。此外,针对标准的一次遍历随机梯度下降(SGD),我们证明了同样的构建技术在样本复杂度上提供了类似的 Ω(√d)下界,以达到非平凡的经验误差,尽管它可以实现最优的测试性能。与之前的工作(Koren,Livni,Mansour 和 Sherman,2022)相比,这提供了维数依赖性的指数级改进,解决了其中的一个开放问题。
Jan, 2024
本研究研究了随机梯度下降(SGD)这种普遍使用的随机优化方法的泛化特性,提供了依赖于在 SGD 计算的迭代路径上评估的随机梯度的本地统计信息的泛化误差的理论上限,其关键因素是梯度的方差及目标函数沿 SGD 路径的局部光滑性以及损失函数对最终输出的扰动敏感度和信息理论泛化界限等。
Feb, 2021
本研究针对带图等情景,探讨 Stochastic gradient descent (SGD) 中 consitent estimator 的效用及其相对于 unbiased estimator 的同等收敛性。实验证明,consistent estimator 在 strongly convex, convex, and nonconvex 目标下均表现良好,这一研究有助于进一步提高 SGD 的效率并设计大规模图的高效训练算法。
Jul, 2018