本文证明了对于线性可分数据,梯度下降的隐式偏差可以通过最优解的双重优化问题完全描述,从而实现了对一般损失的训练。此外,使用 L2 最大间隔方向的恒定步长可以获得 O (ln (n)/ln (t)) 的收敛速率,而使用适当选择的主动步长时间表,则可以获得对于 L2 间隔和隐式偏差的 O (1/t) 收敛速率。
Jun, 2019
对采用严格单调尾部的损失函数(如对数损失)在可分离数据集上利用梯度下降时的隐式偏差进行了详细研究,证明了对于一大类超多项式尾部损失,梯度下降迭代可以收敛到任意深度的线性网络的 L2 最大边距解。
Mar, 2018
通过研究线性可分数据分类中梯度算法的边界最大化偏差,提出一种名为渐进缩放梯度下降 (PRGD) 的新算法,在指数速率下最大化边界,相比于现有的多项式速率算法展现出明显区别,并验证了该理论发现在合成和实际数据上的有效性,同时在线性不可分数据集和深度神经网络上也显示了潜力提升泛化性能。
Nov, 2023
本文介绍了多步优化算法的收敛加速方案,并使用 Chebyshev 问题模拟了迭代过程中的行为,同时讨论了该方案在原始 - 对偶算法中的应用,并在逻辑回归问题中进行了数值实验。
Oct, 2018
本文介绍了一种将常规优化算法转化为在线学习动态的方法,以解决具有多个局部极小值的给定训练目标的最小化,通过在线学习算法的遗憾界来获得隐式偏差率,并比较了梯度下降、镜像下降和最陡下降这三种不同的优化算法的隐式偏差率。
May, 2023
本文探讨了如何在两层神经网络上使用标准化的梯度下降算法,证明了使用标准化梯度下降算法可以实现指数尾数损失函数的快速收敛,并讨论了凸性目标的归纳性及过拟合问题。
使用常数步长的梯度下降算法应用于线性可分数据的逻辑回归,证明了在初始震荡阶段后,算法能够在 a 步的时间内实现 O (1/(aT)) 的收敛速率,从而在总步数为 T 的情况下,通过积极地调整步长可以达到 O (1/T^2) 的加速损失,无需使用动量或变化的步长调度器。
Feb, 2024
本文研究了动量下降法在神经网络训练中的应用,揭示了其加速神经网络训练的原因及机理。通过对多个模型的分析,得出了使用动量下降法相比普通梯度下降法,能够更快地达到更优的训练效果的结论。
Oct, 2020
本文论述了使用梯度方法和指数损失训练线性预测器时,预测器的收敛方向渐近地趋向于最大边缘预测器,但无论迭代次数有多大,标准梯度方法(特别是梯度流、梯度下降、随机梯度下降)永远不会过拟合可分数据集。
Jun, 2020
本文研究了 Leaky ReLU 神经网络的全局最优性,证明了线性可分对称数据上的梯度流算法能够收敛于全局最优的 “max-margin” 解,同时还对梯度下降在训练初期的 “简单度偏向” 现象进行了理论解释。
Oct, 2021