随机梯度下降中隐式正则化的起源
本研究针对模型学习速率为中等并逐渐降低的情况,研究了 SGD 和 GD 在超参数调节中的常见行为,以此试图解决机器学习中的算法偏差问题,并得出了不同方向偏差可能导致最终预测结果差异的结论。
Nov, 2020
研究隐式正则化的小批量随机梯度下降,以最小二乘回归为基础问题,利用具有与随机梯度下降相同矩的连续时间随机微分方程,称为随机梯度流。给出了随时间 t 随机梯度流的超额风险的界限,超过了具有调整参数 λ=1/t 的岭回归,此界限可以从明确的常数(例如小批量大小,步长,迭代次数)计算出来,显示了这些数量如何精确地推动超额风险。数值实验表明,边界可以很小,表明两种估计值之间存在紧密关系。给出了一个类似的结果,将随机梯度流和岭的系数联系起来。这些结果不受数据矩阵 X 的任何条件限制,并且跨越整个优化路径(不仅仅在收敛处)
Mar, 2020
该论文提出了一个可以研究 Stochastic Gradient Descent 在 overparametrized 模型中的隐式偏差的通用框架,该框架使用一个描述参数极限动态的随机微分方程,并考虑了任意噪声协方差,文中给出了一些新结果,同时可以在线性模型中进行应用。
Oct, 2021
本文研究了梯度下降算法在优化神经网络时的表现,发现梯度下降中的离散步骤隐含地通过惩罚大损失梯度轨迹的方式实现了模型的正则化,这种 “隐性梯度正则化” 导致梯度下降趋向于平坦的最小值,使解决方案对噪声参数扰动有很好的鲁棒性,这一理论有助于解决过拟合问题。
Sep, 2020
本文通过动态稳定性的角度研究了随机梯度下降法(SGD)的隐式正则化,并探讨了稳定的最小值对二层 ReLU 神经网络和对角线线性网络的广义性能影响,发现 SGD 的稳定性正则化较于 GD 更强,LR 越大效果越明显,解释了为什么 SGD 比 GD 更具普适性。
May, 2023
研究机器学习中的二个核心问题 —— 如何预测最小值是否能推广到测试集,以及为什么随机梯度下降找到的最小值能很好地推广;探讨了小批量大小影响参数朝向大证据最小值的作用;当学习速率固定时,建议选择使测试集准确性最大化的最佳批次大小。
Oct, 2017
SGD 使用隐式正则化训练深度神经网络的确切方式一直以来都很难界定,但我们证明了 SGD 最小化了一个与分布式权重后验分布相关的平均势能加一个熵正则化项,但这个势能通常与原始损失函数不同。此外,我们表明 SGD 在经典意义下甚至不会收敛,因此这种 ' 失衡 ' 的行为是由于对于深度网络,SGD 的梯度噪声是高度非各向同性的。我们在附录中给出了这些声明的广泛经验验证。
Oct, 2017
本文研究隐式偏差和隐式正则化对随机凸优化中随机梯度下降的影响,提供了一种简单构造来排除控制 SGD 泛化能力的分布独立的隐式正则化器的存在,并且证明了分布依赖的一般类隐式正则化器不能解释泛化的学习问题,说明了仅仅通过隐式正则化的特性来全面解释算法的泛化性能存在重大困难。
Mar, 2020