通过引入随机计算图的形式化方法,该论文描述了如何自动推导损失函数梯度的无偏估计量,提出了一种计算梯度估计器的算法,从而统一了以前工作中推导的估算器和其中的方差减少技术,该算法使得研究人员可以开发涉及随机和确定性操作相结合的复杂模型,包括注意力、记忆和控制动作。
Jun, 2015
本研究探讨随机优化中梯度下降算法(尤其是加速梯度下降和随机梯度下降)的渐近行为,并建立了渐近分析的计算和统计统一框架。基于时间依赖奥恩斯坦 - 乌伦贝克过程等建立梯度流中心极限定理,最终识别学习率、批处理大小、梯度协方差和黑塞矩阵等四个因素,以解决非凸优化问题。
Nov, 2017
从数据中学习机制模型的方法的发展是一个持续的努力,本文通过探索基于模拟的优化方法,讨论了参数估计与结构推断的挑战。
Apr, 2024
本文探讨了基于梯度的算法,如梯度下降、随机梯度下降、其持续变体和 Langevin 算法如何浏览非凸损失景观及其在有限样本复杂度下能否达到最佳泛化误差问题。我们以高维相位恢复问题的损失景观为典型例子,证明了随机梯度下降算法可以在控制参数区域达到完美的泛化性能,而梯度下降算法则不能。我们还运用动力学均场理论从统计物理学的角度分析了这些算法在连续时间、以热启动方式和大系统规模下的全部轨迹,并揭示了景观和算法的若干有趣特性,如梯度下降算法可以从更少的初始信息获得更好的泛化性能。
Mar, 2021
机器学习中的快速进步基于与梯度优化的高效连接,在决策和多智能体问题上的转变为算法设计的新领域提出了新的数学挑战,我们提供了一个更广泛的梯度优化算法框架的简要介绍。
Sep, 2023
本文提出了针对复合目标强凸的情况下,带有方差约束的随机梯度下降法,其收敛速度优于传统的随机梯度下降法,同时常数因子也更小,只与输入数据的方差有关。
Oct, 2016
本研究针对带图等情景,探讨 Stochastic gradient descent (SGD) 中 consitent estimator 的效用及其相对于 unbiased estimator 的同等收敛性。实验证明,consistent estimator 在 strongly convex, convex, and nonconvex 目标下均表现良好,这一研究有助于进一步提高 SGD 的效率并设计大规模图的高效训练算法。
Jul, 2018
该综述对有限数据集的优化中方差缩减方法的主要原理和主要发展进行了概述,重点在于凸设定,并留下指向感兴趣的读者的指针。
Oct, 2020
本文提出一种基于随机零阶梯度与方差降低的高斯平滑的新型方法,用于优化非凸函数,特别是深度神经网络的黑盒攻击问题,并在实验中证明了其比现有的导数 - free 优化技术表现更优。
May, 2018
本文研究随机梯度下降的变体 —— 马尔科夫链梯度下降算法,并针对非凸问题和不可逆有限状态马尔科夫链等情形,提出可行的非等时收敛证明,并通过实验验证其有效性。
Sep, 2018