本文研究了 AdaGrad 在可分线性分类问题上的隐式偏差,并证明其收敛于一个可以被描述为具有与硬 SVM 问题相同可行集的二次优化问题的方向。此外,还讨论了不同的超参数选择对 AdaGrad 的影响,这增进了我们对为什么自适应方法在实践中似乎没有梯度下降优良的泛化能力的更深入理解。
Jun, 2019
本研究发现,在无正则化的逻辑回归问题、线性可分数据集上,使用均匀线性预测器的梯度下降法会收敛于最大间隔解的方向。收敛速度缓慢,方法适用于其他单调递减的损失函数、多类别问题和某些受限情况下的深层网络训练。此研究还可帮助理解模型的隐式正则化和其他优化方法。
Oct, 2017
本文证明了对于线性可分数据,梯度下降的隐式偏差可以通过最优解的双重优化问题完全描述,从而实现了对一般损失的训练。此外,使用 L2 最大间隔方向的恒定步长可以获得 O (ln (n)/ln (t)) 的收敛速率,而使用适当选择的主动步长时间表,则可以获得对于 L2 间隔和隐式偏差的 O (1/t) 收敛速率。
本文研究围绕梯度下降的对抗训练方法,探讨了其具有鲁棒性的理论性质,特别是其归纳偏差。发现使用对抗扰动训练的分类器以更快的速率收敛,而且具有更大的鲁棒性,这为对抗训练的鲁棒性提供了理论支持。
对采用严格单调尾部的损失函数(如对数损失)在可分离数据集上利用梯度下降时的隐式偏差进行了详细研究,证明了对于一大类超多项式尾部损失,梯度下降迭代可以收敛到任意深度的线性网络的 L2 最大边距解。
Mar, 2018
前人的研究表明,通过反向误差分析可以找到逼近梯度下降轨迹的常微分方程(ODEs)。本文证明 RMSProp 和 Adam 中存在类似的隐式正则化现象,取决于超参数和训练阶段,并与之前的研究有所不同。我们还进行了数值实验,并讨论了这些事实如何影响泛化能力。
Aug, 2023
研究表明采用指数移动平均策略的自适应算法如 Adam 和 RMSProp 可以最大化神经网络的边界,而直接在条件器中加历史平方梯度的 AdaGrad 却不行。
Dec, 2020
本文证明了在使用可变学习率运行梯度下降时,对于逻辑回归目标函数,损失 f (x) ≤ 1.1・f (x*) + ε,其中误差 ε 按迭代次数指数下降,并按任意固定解决方案 x* 条目大小的多项式下降。该文还将这些思想应用于稀疏逻辑回归,在那里它们导致了稀疏误差交换的指数改进。
Jun, 2023
本文提出了一个关于大型语言模型训练中先前无法解释的发散行为的理论。该理论说明这一现象是优化算法 Adam 的副作用。通过观察该算法的参数更新向量和训练损失方向的相关性,我们得出这一结论,并给出了不同规模语言模型的训练观察结果。
Apr, 2023
本文论述了使用梯度方法和指数损失训练线性预测器时,预测器的收敛方向渐近地趋向于最大边缘预测器,但无论迭代次数有多大,标准梯度方法(特别是梯度流、梯度下降、随机梯度下降)永远不会过拟合可分数据集。
Jun, 2020