基于Hessian的SGD分析:深度网络的动力学和泛化
SGD使用隐式正则化训练深度神经网络的确切方式一直以来都很难界定,但我们证明了SGD最小化了一个与分布式权重后验分布相关的平均势能加一个熵正则化项,但这个势能通常与原始损失函数不同。此外,我们表明SGD在经典意义下甚至不会收敛,因此这种'失衡'的行为是由于对于深度网络,SGD的梯度噪声是高度非各向同性的。我们在附录中给出了这些声明的广泛经验验证。
Oct, 2017
使用较小的学习率和SGD最陡峭的方向进行训练可以提高模型的训练速度和泛化能力,而较大的学习率或较小的批量大小将导致SGD进入更宽的区域。
Jul, 2018
使用最先进的高维数值线性代数工具来有效近似现代深度学习网络巨大参数空间上的Hessian谱,研究发现该Hessian具有“尖峰”行为,同时分别分析各项的训练动态和样本大小变化情况。
Nov, 2018
本文提出了一种使用线性搜索技术自动设置步长的随机梯度下降算法,在数据插值设置中,使用 Armijo 线性搜索方法的 SGD 实现凸和强凸函数的确定性收敛率,同时提出了一种 Lipschitz 线性搜索策略的随机额外梯度的算法,该算法在满足嵌入条件的非凸问题和鞍点问题的情况下实现了线性收敛率,并在标准分类任务上表现出了良好的性能。
May, 2019
本文提出了一种统一分析的变体的近端随机梯度下降法,包括了未进行方差缩减、重要性抽样、小批量抽样、量化、坐标子采样等方法,同时获得了近端随机梯度下降法和随机化坐标下降法、方差缩减和非方差缩减的统一理论,提出了五种新变体的近端随机梯度下降法,并通过数值实验证明了其性质。
May, 2019
研究表明在拥有相同迭代次数的情况下,小或适中大小的batch在测试集上比非常大的batch具有更好的表现,同时研究如何随着预算增长而改变最佳学习率计划,并提供一个基于随机微分方程的SGD动态的理论解释。
Jun, 2020
本文探究了随机梯度下降(SGD)及其变种在非消失学习率模式下的基本性质,特别是推导了离散时间SGD在二次损失函数中的稳态分布,讨论了其影响,并考虑了SGD变体的逼近误差、小批量噪音效应、最优贝叶斯推断、从尖锐最小值的逃逸率和几种包括阻尼牛顿法、自然梯度下降和Adam的二阶方法的稳态协方差等应用。
Dec, 2020
研究了梯度方法在基础随机凸优化条件下的泛化性能,并关注其与维数的依赖关系。针对全批量梯度下降(GD),通过构建学习问题,在维数为$ d = O(n^2)$的情况下,可以证明经过调整以达到经验风险最优表现的典型GD(使用n个训练样本)在具有常数概率的情况下,收敛为近似经验风险最小化器,且其相对于总体风险具有Ω(1)的过量风险。这个界限对于标准GD需要达到非平凡测试误差的训练样本数量有一个下界Ω(√d),回答了Feldman(2016)和Amir,Koren和Livni(2021b)提出的一个开放问题,表明非平凡的维数依赖性是不可避免的。此外,针对标准的一次遍历随机梯度下降(SGD),我们证明了同样的构建技术在样本复杂度上提供了类似的Ω(√d)下界,以达到非平凡的经验误差,尽管它可以实现最优的测试性能。与之前的工作(Koren,Livni,Mansour和Sherman,2022)相比,这提供了维数依赖性的指数级改进,解决了其中的一个开放问题。
Jan, 2024
本文采用一种新方法,通过估计随机优化器的稳态分布,从多条优化轨迹的集合中综合评估,旨在解决当前对深度学习优化算法有效性的理解不完整的问题。通过合成函数和计算机视觉、自然语言处理等领域的实际问题的评估,我们着重在统计框架下进行公平的基准测试和建立统计显著性,揭示了训练损失与保持精确度之间的关系以及SGD、噪声使能变体和利用BH框架的新优化器的可比性能,值得注意的是,这些算法展示了与SAM等平坦最小值优化器相当的性能,但梯度评估减少了一半。我们期待我们的工作将促进深度学习优化的进一步探索,鼓励从单模型方法转向更加认识和利用优化器的随机性质的方法。
Mar, 2024