可分数据上梯度下降的收敛性
本研究发现,在无正则化的逻辑回归问题、线性可分数据集上,使用均匀线性预测器的梯度下降法会收敛于最大间隔解的方向。收敛速度缓慢,方法适用于其他单调递减的损失函数、多类别问题和某些受限情况下的深层网络训练。此研究还可帮助理解模型的隐式正则化和其他优化方法。
Oct, 2017
本文探讨了采用SGD 进行机器学习的收敛性问题,特别是在采用线性可分数据及单调函数损失函数的情况下,证明了 SGD 在固定非零学习率的条件下可以收敛至零损失,对于分类问题中的单调函数损失函数(例如对数损失),每次迭代权重向量趋向于$L_2$最大裕度向量,且损失以$O(1/t)$的速率收敛。
Jun, 2018
本文证明了对于线性可分数据,梯度下降的隐式偏差可以通过最优解的双重优化问题完全描述,从而实现了对一般损失的训练。此外,使用 L2 最大间隔方向的恒定步长可以获得 O(ln(n)/ln(t)) 的收敛速率,而使用适当选择的主动步长时间表,则可以获得对于L2间隔和隐式偏差的 O(1/t) 收敛速率。
Jun, 2019
研究了梯度下降算法在同质神经网络中的隐式正则化,重点研究了 optimizing the logistic loss or cross-entropy loss of any homogeneous model,探讨了规范化边缘的平滑版本,形成了一个关于边缘最大化的优化问题,给出了算法的渐进性能, 并讨论了通过训练提高模型鲁棒性的潜在好处。
Jun, 2019
本论文研究了机器学习中隐含的偏差及其对应的正则化解,并且根据理论证明我们使用的指数型损失函数的正则化效果,可达到最大保边缘的方向,相应的其他损失函数可能会导致收敛于边缘较差的方向。
Jun, 2020
本文论述了使用梯度方法和指数损失训练线性预测器时,预测器的收敛方向渐近地趋向于最大边缘预测器,但无论迭代次数有多大,标准梯度方法(特别是梯度流、梯度下降、随机梯度下降)永远不会过拟合可分数据集。
Jun, 2020
本文研究了边缘稳定性(EoS)中逻辑回归上梯度下降(GD)的收敛和隐式偏差情况,证明任何恒定步长的非单调GD迭代可以在较长时间尺度上最小化逻辑损失,并在最大间隔方向上趋于正无穷,在最大间隔方向的正交补上收敛于最小化强凸势能的固定向量,而指数损失可能导致GD迭代在EoS区域内灾难性发散。
May, 2023
本文证明了在使用可变学习率运行梯度下降时,对于逻辑回归目标函数,损失 f(x) ≤ 1.1·f(x*) + ε,其中误差 ε 按迭代次数指数下降,并按任意固定解决方案 x* 条目大小的多项式下降。该文还将这些思想应用于稀疏逻辑回归,在那里它们导致了稀疏误差交换的指数改进。
Jun, 2023