通过梯度下降学习随机人口模型
我们证明了随机梯度下降算法可以高效地收敛于未知线性时不变动态系统的极大似然目标函数的全局极值。虽然该目标函数是非凸的,但我们在强但自然的假设下提供了多项式运行时间和样本复杂度界限。尽管线性系统识别已经研究了许多年,但据我们所知,这是我们所考虑的问题的第一个多项式保证。
Sep, 2016
在当今时代,计算机、计算和数据在科学研究和发现中的重要性不断增加。本论文主要关注梯度本身,解决非线性优化问题,并介绍了逆向微分的概念和应用,以及分段连续模型的使用案例。
May, 2024
本研究探讨随机优化中梯度下降算法(尤其是加速梯度下降和随机梯度下降)的渐近行为,并建立了渐近分析的计算和统计统一框架。基于时间依赖奥恩斯坦 - 乌伦贝克过程等建立梯度流中心极限定理,最终识别学习率、批处理大小、梯度协方差和黑塞矩阵等四个因素,以解决非凸优化问题。
Nov, 2017
该论文提出了一种基于核的随机梯度下降算法,在训练过程中进行模型选择,不需任何形式的交叉验证或参数调整,并利用在线学习理论在数据相关性方面进行正则化的估计,证明了标准光滑性假设下的最优收敛速度。
Jun, 2014
本论文介绍了通过使用随机梯度算法来近似解决高斯过程中线性系统求解的限制,并利用影响收敛的隐含偏差的谱特点来解释结果,最终在大规模数据集上取得了最先进的预测性能和不确定性估计。
Jun, 2023
该论文讨论在数据过度参数化时,第一阶段优化方案(如随机梯度下降)的性质。作者发现,当损失函数在初始点的最小邻域内具有某些属性时,迭代会以几何速率收敛于全局最优解,会以接近直接的路线从初始点到达全局最优解,其中,通过引入一个新的潜力函数来作为证明技术的一部分。对于随机梯度下降(SGD),作者开发了新的鞅技巧,以保证 SGD 绝不会离开初始化的小邻域。
Dec, 2018
本文提出了一种高效的分布式随机优化方法,通过结合适应性与方差约减技术,从而实现任何串行在线学习算法的并行计算,能够在不需要光滑参数的先验知识的情况下实现最优收敛速率,同时通过 Spark 分布式框架的实现能够对大规模逻辑回归问题进行高效处理。
Feb, 2018
本文介绍如何将随机梯度下降算法与调整参数应用于概率建模中的近似后验推断,通过最小化数据生成分布与目标后验分布之间的 KL 散度作为理论框架,让 SGD 有效地作为贝叶斯推断的一种方法,发现其可以成为概率模型优化超参数的一种新途径。
Feb, 2016
本文探讨了基于梯度的算法,如梯度下降、随机梯度下降、其持续变体和 Langevin 算法如何浏览非凸损失景观及其在有限样本复杂度下能否达到最佳泛化误差问题。我们以高维相位恢复问题的损失景观为典型例子,证明了随机梯度下降算法可以在控制参数区域达到完美的泛化性能,而梯度下降算法则不能。我们还运用动力学均场理论从统计物理学的角度分析了这些算法在连续时间、以热启动方式和大系统规模下的全部轨迹,并揭示了景观和算法的若干有趣特性,如梯度下降算法可以从更少的初始信息获得更好的泛化性能。
Mar, 2021