本论文研究了随机梯度方法在凸损失函数及线性参数函数学习中的泛化特性,证明了在无惩罚或约束的情况下可以通过调整步长或数据通行次数来控制算法的稳定性和逼近性质,这被看作是一个隐式正则化的形式,并给出了数值结果验证理论发现。
May, 2016
SGD使用隐式正则化训练深度神经网络的确切方式一直以来都很难界定,但我们证明了SGD最小化了一个与分布式权重后验分布相关的平均势能加一个熵正则化项,但这个势能通常与原始损失函数不同。此外,我们表明SGD在经典意义下甚至不会收敛,因此这种'失衡'的行为是由于对于深度网络,SGD的梯度噪声是高度非各向同性的。我们在附录中给出了这些声明的广泛经验验证。
Oct, 2017
本文研究隐式偏差和隐式正则化对随机凸优化中随机梯度下降的影响,提供了一种简单构造来排除控制SGD泛化能力的分布独立的隐式正则化器的存在,并且证明了分布依赖的一般类隐式正则化器不能解释泛化的学习问题,说明了仅仅通过隐式正则化的特性来全面解释算法的泛化性能存在重大困难。
Mar, 2020
研究表明在拥有相同迭代次数的情况下,小或适中大小的batch在测试集上比非常大的batch具有更好的表现,同时研究如何随着预算增长而改变最佳学习率计划,并提供一个基于随机微分方程的SGD动态的理论解释。
Jun, 2020
本研究针对模型学习速率为中等并逐渐降低的情况,研究了SGD和GD在超参数调节中的常见行为,以此试图解决机器学习中的算法偏差问题,并得出了不同方向偏差可能导致最终预测结果差异的结论。
Nov, 2020
本文研究了随机梯度下降和全样本梯度下降在随机凸优化模型中泛化性能的分离问题,发现经典的全样本梯度下降算法在步数相同的情况下会出现过拟合且通常需要更多的步数才能与随机梯度下降算法获得类似的泛化性能。同时本文还探讨了正则化、稳定性和隐含偏差等概念在泛化中的作用。
Feb, 2021
研究过参数化模型,标签噪音等对随机梯度下降中的正则化作用及其影响。
Jun, 2021
本文通过比较全批量训练和SGD在现代结构下在CIFAR-10数据集上的表现,证明了SGD的隐式正则化可以完全被显式正则化替代,并指出全批量训练受限于优化性质和ML社区花费在小批量训练上的大量时间和精力。
Sep, 2021
本文通过动态稳定性的角度研究了随机梯度下降法(SGD)的隐式正则化,并探讨了稳定的最小值对二层ReLU神经网络和对角线线性网络的广义性能影响,发现SGD的稳定性正则化较于GD更强,LR越大效果越明显,解释了为什么SGD比GD更具普适性。
May, 2023
通过分析基于随机梯度下降(SGD)的隐式正则化效应,本文研究了SGD无替换的情况,并发现其与添加了一种新型正则化器时的最优化过程等价,导致其在损失函数空间中与注入噪声的GD和采样独立同分布的SGD有着明显不同的轨迹,并在某些视觉任务中鼓励损失函数海森矩阵的特征值谱中出现稀疏性。
Dec, 2023