梯度下降遵循普通损失的正则化路径
本研究发现,在无正则化的逻辑回归问题、线性可分数据集上,使用均匀线性预测器的梯度下降法会收敛于最大间隔解的方向。收敛速度缓慢,方法适用于其他单调递减的损失函数、多类别问题和某些受限情况下的深层网络训练。此研究还可帮助理解模型的隐式正则化和其他优化方法。
Oct, 2017
本篇论文研究了在线性可分数据上应用于深度线性网络的梯度流和梯度下降的风险收敛和渐进权重矩阵对齐 —— 一种隐式正则化方法,详细说明了在套用于严格递减损失函数时(梯度下降的递减步长也是如此):(i) 风险趋近于 0;(ii)标准化的第 i 个权重矩阵渐进等于其秩 - 1 逼近;(iii)这些秩 - 1 矩阵在层之间对齐,即 |vi+1^Tv_i| -> 1。特别地,在逻辑损失(二元交叉熵)的情况下,还可以说更多的结论:网络激发的线性函数 —— 其权重矩阵的乘积 —— 趋向于与最大边际解同方向。这种性质在之前的工作中已被证明,但仅基于对梯度下降的假设,这里的对齐现象可以证明这些假设。
Oct, 2018
对采用严格单调尾部的损失函数(如对数损失)在可分离数据集上利用梯度下降时的隐式偏差进行了详细研究,证明了对于一大类超多项式尾部损失,梯度下降迭代可以收敛到任意深度的线性网络的 L2 最大边距解。
Mar, 2018
运用梯度下降方法解决逻辑回归问题中,得出的迭代结果存在一定程度的偏差,最终趋于数据集的最大可分线性子集的最大间隔预测方向,该方向可以表示数据与偏置的关系,迭代过程中可以逐步地逼近,并且在给定收敛率的前提下,可以恢复出该偏移量。
Mar, 2018
该论文讨论在数据过度参数化时,第一阶段优化方案(如随机梯度下降)的性质。作者发现,当损失函数在初始点的最小邻域内具有某些属性时,迭代会以几何速率收敛于全局最优解,会以接近直接的路线从初始点到达全局最优解,其中,通过引入一个新的潜力函数来作为证明技术的一部分。对于随机梯度下降(SGD),作者开发了新的鞅技巧,以保证 SGD 绝不会离开初始化的小邻域。
Dec, 2018
本文研究了梯度下降算法在优化神经网络时的表现,发现梯度下降中的离散步骤隐含地通过惩罚大损失梯度轨迹的方式实现了模型的正则化,这种 “隐性梯度正则化” 导致梯度下降趋向于平坦的最小值,使解决方案对噪声参数扰动有很好的鲁棒性,这一理论有助于解决过拟合问题。
Sep, 2020
研究非凸优化问题中梯度下降算法的隐式正则化特性,证明在多种统计模型中,梯度下降算法在没有显式正则化的情况下也能够实现正则化,并在相位恢复、低秩矩阵补全和盲反卷积等三个基本统计估计问题中实现近乎最优的统计和计算保证。
Nov, 2017
本文研究是否可以通过使用优化正则化方法避免双重下降现象。理论上,我们证明了对于某些线性回归模型,通过正则化可以实现测试性能的单调性增长,我们还通过实验证明了优化的正则化方法可以缓解双重下降现象。
Mar, 2020
本文研究随机梯度下降(SGD)的学习率对准确性的影响,证明当学习率适当大时,SGD 的迭代路径离梯度下降路径更近,这种现象可通过引入一个隐式正则化项进行解释,并通过实验证明在适当的学习率下包含隐式正则化项可以提高测试准确性。
Jan, 2021