Adam 算法在可分数据上的隐含偏差

Jun, 2024

Adam 算法在可分数据上的隐含偏差

The Implicit Bias of Adam on Separable Data

Chenyang Zhang, Difan Zou, Yuan Cao

TL;DR当训练数据是线性可分的时候，Adam 会收敛到一个线性分类器，能够达到最大的 l∞- 边界，并且此收敛在多项式时间内发生，这一结果从理论角度揭示了 Adam 和（随机）梯度下降之间的差异。

Abstract

adam has become one of the most favored optimizers in deep learning problems. Despite its success in practice, numerous mysteries persist

adam optimizers deep learning implicit bias linear logistic regression

发现论文，激发创造

AdaGrad 在可分数据上的隐式偏见

本文研究了 AdaGrad 在可分线性分类问题上的隐式偏差，并证明其收敛于一个可以被描述为具有与硬 SVM 问题相同可行集的二次优化问题的方向。此外，还讨论了不同的超参数选择对 AdaGrad 的影响，这增进了我们对为什么自适应方法在实践中似乎没有梯度下降优良的泛化能力的更深入理解。

Jun, 2019

分离数据梯度下降的隐式偏差

本研究发现，在无正则化的逻辑回归问题、线性可分数据集上，使用均匀线性预测器的梯度下降法会收敛于最大间隔解的方向。收敛速度缓慢，方法适用于其他单调递减的损失函数、多类别问题和某些受限情况下的深层网络训练。此研究还可帮助理解模型的隐式正则化和其他优化方法。

Oct, 2017

通过原始 - 对偶分析表征隐式偏差

本文证明了对于线性可分数据，梯度下降的隐式偏差可以通过最优解的双重优化问题完全描述，从而实现了对一般损失的训练。此外，使用 L2 最大间隔方向的恒定步长可以获得 O (ln (n)/ln (t)) 的收敛速率，而使用适当选择的主动步长时间表，则可以获得对于 L2 间隔和隐式偏差的 O (1/t) 收敛速率。

Jun, 2019

基于梯度下降的对抗训练在可分数据上的归纳偏置

本文研究围绕梯度下降的对抗训练方法，探讨了其具有鲁棒性的理论性质，特别是其归纳偏差。发现使用对抗扰动训练的分类器以更快的速率收敛，而且具有更大的鲁棒性，这为对抗训练的鲁棒性提供了理论支持。

Jun, 2019

可分数据上梯度下降的收敛性

对采用严格单调尾部的损失函数（如对数损失）在可分离数据集上利用梯度下降时的隐式偏差进行了详细研究，证明了对于一大类超多项式尾部损失，梯度下降迭代可以收敛到任意深度的线性网络的 L2 最大边距解。

Mar, 2018

Adam 隐式偏差研究

前人的研究表明，通过反向误差分析可以找到逼近梯度下降轨迹的常微分方程（ODEs）。本文证明 RMSProp 和 Adam 中存在类似的隐式正则化现象，取决于超参数和训练阶段，并与之前的研究有所不同。我们还进行了数值实验，并讨论了这些事实如何影响泛化能力。

Aug, 2023

同质神经网络适应性优化算法的隐含偏差

研究表明采用指数移动平均策略的自适应算法如 Adam 和 RMSProp 可以最大化神经网络的边界，而直接在条件器中加历史平方梯度的 AdaGrad 却不行。

Dec, 2020

可分数据下的逻辑回归梯度下降收敛速率

本文证明了在使用可变学习率运行梯度下降时，对于逻辑回归目标函数，损失 f (x) ≤ 1.1・f (x*) + ε，其中误差 ε 按迭代次数指数下降，并按任意固定解决方案 x* 条目大小的多项式下降。该文还将这些思想应用于稀疏逻辑回归，在那里它们导致了稀疏误差交换的指数改进。

Jun, 2023

大规模机器学习 Adam 不稳定性理论

本文提出了一个关于大型语言模型训练中先前无法解释的发散行为的理论。该理论说明这一现象是优化算法 Adam 的副作用。通过观察该算法的参数更新向量和训练损失方向的相关性，我们得出这一结论，并给出了不同规模语言模型的训练观察结果。

Apr, 2023

梯度方法在可分数据上永不过拟

本文论述了使用梯度方法和指数损失训练线性预测器时，预测器的收敛方向渐近地趋向于最大边缘预测器，但无论迭代次数有多大，标准梯度方法（特别是梯度流、梯度下降、随机梯度下降）永远不会过拟合可分数据集。

Jun, 2020