AdaGrad 在可分数据上的隐式偏见
本研究发现,在无正则化的逻辑回归问题、线性可分数据集上,使用均匀线性预测器的梯度下降法会收敛于最大间隔解的方向。收敛速度缓慢,方法适用于其他单调递减的损失函数、多类别问题和某些受限情况下的深层网络训练。此研究还可帮助理解模型的隐式正则化和其他优化方法。
Oct, 2017
当训练数据是线性可分的时候,Adam 会收敛到一个线性分类器,能够达到最大的 l∞- 边界,并且此收敛在多项式时间内发生,这一结果从理论角度揭示了 Adam 和(随机)梯度下降之间的差异。
Jun, 2024
本文研究围绕梯度下降的对抗训练方法,探讨了其具有鲁棒性的理论性质,特别是其归纳偏差。发现使用对抗扰动训练的分类器以更快的速率收敛,而且具有更大的鲁棒性,这为对抗训练的鲁棒性提供了理论支持。
Jun, 2019
本文证明了对于线性可分数据,梯度下降的隐式偏差可以通过最优解的双重优化问题完全描述,从而实现了对一般损失的训练。此外,使用 L2 最大间隔方向的恒定步长可以获得 O (ln (n)/ln (t)) 的收敛速率,而使用适当选择的主动步长时间表,则可以获得对于 L2 间隔和隐式偏差的 O (1/t) 收敛速率。
Jun, 2019
对采用严格单调尾部的损失函数(如对数损失)在可分离数据集上利用梯度下降时的隐式偏差进行了详细研究,证明了对于一大类超多项式尾部损失,梯度下降迭代可以收敛到任意深度的线性网络的 L2 最大边距解。
Mar, 2018
本文论述了使用梯度方法和指数损失训练线性预测器时,预测器的收敛方向渐近地趋向于最大边缘预测器,但无论迭代次数有多大,标准梯度方法(特别是梯度流、梯度下降、随机梯度下降)永远不会过拟合可分数据集。
Jun, 2020
本文研究了边缘稳定性(EoS)中逻辑回归上梯度下降(GD)的收敛和隐式偏差情况,证明任何恒定步长的非单调 GD 迭代可以在较长时间尺度上最小化逻辑损失,并在最大间隔方向上趋于正无穷,在最大间隔方向的正交补上收敛于最小化强凸势能的固定向量,而指数损失可能导致 GD 迭代在 EoS 区域内灾难性发散。
May, 2023
本研究针对模型学习速率为中等并逐渐降低的情况,研究了 SGD 和 GD 在超参数调节中的常见行为,以此试图解决机器学习中的算法偏差问题,并得出了不同方向偏差可能导致最终预测结果差异的结论。
Nov, 2020
本文证明了在使用可变学习率运行梯度下降时,对于逻辑回归目标函数,损失 f (x) ≤ 1.1・f (x*) + ε,其中误差 ε 按迭代次数指数下降,并按任意固定解决方案 x* 条目大小的多项式下降。该文还将这些思想应用于稀疏逻辑回归,在那里它们导致了稀疏误差交换的指数改进。
Jun, 2023
研究了通用优化模型,如镜像下降、自然梯度下降和最速下降在欠定线性回归或可分线性分类问题上的隐式偏差以及关于算法得到的特定全局最小值是否可以独立于超参数选择,如步长和动量,用优化几何势或范数表征。
Feb, 2018