本研究探索了神经网络训练算法与自然过程如蛋白质折叠和进化之间的相似性,使用统计物理中 Fokker-Planck 方法将它们在一个统一的框架下探索,研究了在长时间极限下系统的稳态和出现的熵产生率,验证了涉及到这些数值的图谱存在扰动定理,提出了一种新的随机梯度 Langevin 动力学(SGLD)算法,可以应用于贝叶斯机器学习中从后验分布中获取网络权重。
Jun, 2023
随机梯度下降(SGD)算法是用于训练神经网络的算法。在这项工作中,我们证明了 SGD 的小批量噪声在有缩放对称性的损失函数中使解决方案朝着均衡解决方案正则化。我们应用这一结果来推导具有任意深度和宽度的对角线线性网络的随机梯度流的稳态分布,该稳态分布展示了相变、破坏性遍历和涨落反转等复杂的非线性现象,这些现象只存在于深度网络中,暗示着深度模型与浅模型之间的根本差异。
Aug, 2023
本文探究了随机梯度下降(SGD)及其变种在非消失学习率模式下的基本性质,特别是推导了离散时间 SGD 在二次损失函数中的稳态分布,讨论了其影响,并考虑了 SGD 变体的逼近误差、小批量噪音效应、最优贝叶斯推断、从尖锐最小值的逃逸率和几种包括阻尼牛顿法、自然梯度下降和 Adam 的二阶方法的稳态协方差等应用。
Dec, 2020
Stochastic Gradient Descent (SGD) 和 Glauber dynamics 在离散优化和推理问题中的动力学非常相似,其等价性使得我们能够使用 Monte Carlo 算法的结果来优化 SGD 类似算法中的 mini-batch 大小,从而在难解推理问题中提高信号恢复的效率。
Sep, 2023
通过使用动力学均场理论的方法,我们分析了随机梯度下降在单层神经网络分类高维高斯混合数据上的学习动态。我们通过定义一种随机过程将随机梯度下降扩展到连续时间极限,称之为随机梯度流,并探讨了算法控制参数对其在损失函数空间中的导航的影响。
Jun, 2020
本研究探讨随机优化中梯度下降算法(尤其是加速梯度下降和随机梯度下降)的渐近行为,并建立了渐近分析的计算和统计统一框架。基于时间依赖奥恩斯坦 - 乌伦贝克过程等建立梯度流中心极限定理,最终识别学习率、批处理大小、梯度协方差和黑塞矩阵等四个因素,以解决非凸优化问题。
Nov, 2017
我们深入探讨了随机梯度下降(SGD)的线性稳定性与锐利度之间的关系,并介绍了一种损失海森矩阵的一致性度量,用于判断 SGD 在最优点处的线性不稳定性。
Jan, 2024
使用具有随机学习率的随机梯度下降(SGD)的一种变种,研究了其收敛性质,并证明了该方法通过弱假设下的参数更新得到一个稳定分布,从而在非凸优化问题中找到全局最小值,同时评估了泛化误差。
Jun, 2024
本文从随机过程的角度出发,论证了常数学习率随机梯度下降算法(constant SGD)可用作一种近似贝叶斯推断算法,其可优化模型中的超级参数,同时分析了 Langevin Dynamics 和 Stochastic Gradient Fisher Scoring 的近似误差以及 Polyak 平均算法的最优性。在此基础上,提出了一种可扩展的近似马尔科夫链蒙特卡罗(MCMC)算法,即平均随机梯度采样算法(Averaged Stochastic Gradient Sampler)。
Apr, 2017
本文介绍如何将随机梯度下降算法与调整参数应用于概率建模中的近似后验推断,通过最小化数据生成分布与目标后验分布之间的 KL 散度作为理论框架,让 SGD 有效地作为贝叶斯推断的一种方法,发现其可以成为概率模型优化超参数的一种新途径。
Feb, 2016