随机梯度下降揭示儿童学习物理的过程
本文旨在探讨深度神经网络(DNNs)的学习轨迹与其在广泛使用的梯度下降和随机梯度下降算法优化时的相应泛化能力之间的关系。作者构建了线性逼近函数以建立轨迹信息模型,并基于其提出一种新的、基于更丰富轨迹信息的泛化界限。实验结果表明,所提出的方法能够有效地捕捉到不同训练步骤、学习率和标签噪声水平下的泛化趋势。
Apr, 2023
该论文讨论在数据过度参数化时,第一阶段优化方案(如随机梯度下降)的性质。作者发现,当损失函数在初始点的最小邻域内具有某些属性时,迭代会以几何速率收敛于全局最优解,会以接近直接的路线从初始点到达全局最优解,其中,通过引入一个新的潜力函数来作为证明技术的一部分。对于随机梯度下降(SGD),作者开发了新的鞅技巧,以保证 SGD 绝不会离开初始化的小邻域。
Dec, 2018
本研究探讨随机优化中梯度下降算法(尤其是加速梯度下降和随机梯度下降)的渐近行为,并建立了渐近分析的计算和统计统一框架。基于时间依赖奥恩斯坦 - 乌伦贝克过程等建立梯度流中心极限定理,最终识别学习率、批处理大小、梯度协方差和黑塞矩阵等四个因素,以解决非凸优化问题。
Nov, 2017
应用基于微分方程的方法,通过将优化算法与物理系统相联系的思想,研究如何分析梯度下降、坐标梯度下降、牛顿等算法及其加速变体在机器学习中的动态,此分析适用于更广泛的算法和优化问题,超越凸性和强凸性的限制。
Dec, 2016
我们研究了最小二乘问题的连续时间随机梯度下降(SGD)模型的动力学。我们通过分析随机微分方程 (SDE),在训练损失(有限样本)或总体损失(在线设置)的情况下建模 SGD 来追求 Li 等人 (2019) 的研究成果。该动力学的一个关键特征是无论样本大小如何,都存在与数据完美插值器。在这两种情况下,我们提供了收敛到(可能退化的)稳态分布的精确非渐近速率。此外,我们描述了渐近分布,给出了其均值、与之偏差的估计,并证明了与步长大小有关的重尾现象的出现。我们还呈现了支持我们发现的数值模拟结果。
Jul, 2024
通过引入随机计算图的形式化方法,该论文描述了如何自动推导损失函数梯度的无偏估计量,提出了一种计算梯度估计器的算法,从而统一了以前工作中推导的估算器和其中的方差减少技术,该算法使得研究人员可以开发涉及随机和确定性操作相结合的复杂模型,包括注意力、记忆和控制动作。
Jun, 2015