梯度下降遵循普通损失的正则化路径
本文提出了一种新的随机算法,通过将强凸函数的最小化转化为函数规则化的逼近最小化,从而优化了经验风险最小化过程中的性能,实践表明该算法具有稳定性和行之有效的优势
Jun, 2015
本研究发现,在无正则化的逻辑回归问题、线性可分数据集上,使用均匀线性预测器的梯度下降法会收敛于最大间隔解的方向。收敛速度缓慢,方法适用于其他单调递减的损失函数、多类别问题和某些受限情况下的深层网络训练。此研究还可帮助理解模型的隐式正则化和其他优化方法。
Oct, 2017
对采用严格单调尾部的损失函数(如对数损失)在可分离数据集上利用梯度下降时的隐式偏差进行了详细研究,证明了对于一大类超多项式尾部损失,梯度下降迭代可以收敛到任意深度的线性网络的L2最大边距解。
Mar, 2018
该论文讨论在数据过度参数化时,第一阶段优化方案(如随机梯度下降)的性质。作者发现,当损失函数在初始点的最小邻域内具有某些属性时,迭代会以几何速率收敛于全局最优解,会以接近直接的路线从初始点到达全局最优解,其中,通过引入一个新的潜力函数来作为证明技术的一部分。对于随机梯度下降(SGD),作者开发了新的鞅技巧,以保证 SGD 绝不会离开初始化的小邻域。
Dec, 2018
研究了梯度下降算法在同质神经网络中的隐式正则化,重点研究了 optimizing the logistic loss or cross-entropy loss of any homogeneous model,探讨了规范化边缘的平滑版本,形成了一个关于边缘最大化的优化问题,给出了算法的渐进性能, 并讨论了通过训练提高模型鲁棒性的潜在好处。
Jun, 2019
论文提出了一种新的随机优化方法,它有针对性地偏向于高损失值的观测结果,并证明该算法对于凸损失具有亚线性收敛率,对于弱凸损失(非凸)具有关键点,同时在 SVM、逻辑回归和深度学习等模型中获得了更好的测试误差。
Jul, 2019
本研究探讨了当经验风险为弱凸函数时,梯度下降的学习性能,并通过将最小负特征值应用于控制梯度下降的稳定性,从而证明了与先前的研究相比,其持有更广范围步长的一般化误差界。当经验风险满足局部弱凸性时,可以通过对网络进行归一化来控制误差,其中,两层神经网络的经验风险可以满足局部弱凸性。通过权衡网络复杂度和缩放,深入探讨了神经网络缩放的隐式偏差,并得出实验结果的支持。
Jan, 2021
本文研究了边缘稳定性(EoS)中逻辑回归上梯度下降(GD)的收敛和隐式偏差情况,证明任何恒定步长的非单调GD迭代可以在较长时间尺度上最小化逻辑损失,并在最大间隔方向上趋于正无穷,在最大间隔方向的正交补上收敛于最小化强凸势能的固定向量,而指数损失可能导致GD迭代在EoS区域内灾难性发散。
May, 2023
本文证明了在使用可变学习率运行梯度下降时,对于逻辑回归目标函数,损失 f(x) ≤ 1.1·f(x*) + ε,其中误差 ε 按迭代次数指数下降,并按任意固定解决方案 x* 条目大小的多项式下降。该文还将这些思想应用于稀疏逻辑回归,在那里它们导致了稀疏误差交换的指数改进。
Jun, 2023
使用常数步长的梯度下降算法应用于线性可分数据的逻辑回归,证明了在初始震荡阶段后,算法能够在a步的时间内实现O(1/(aT))的收敛速率,从而在总步数为T的情况下,通过积极地调整步长可以达到O(1/T^2)的加速损失,无需使用动量或变化的步长调度器。
Feb, 2024