研究过参数化模型,标签噪音等对随机梯度下降中的正则化作用及其影响。
Jun, 2021
本文研究随机梯度下降(SGD)的学习率对准确性的影响,证明当学习率适当大时,SGD 的迭代路径离梯度下降路径更近,这种现象可通过引入一个隐式正则化项进行解释,并通过实验证明在适当的学习率下包含隐式正则化项可以提高测试准确性。
Jan, 2021
该论文提出了一个可以研究 Stochastic Gradient Descent 在 overparametrized 模型中的隐式偏差的通用框架,该框架使用一个描述参数极限动态的随机微分方程,并考虑了任意噪声协方差,文中给出了一些新结果,同时可以在线性模型中进行应用。
Oct, 2021
本文研究隐式偏差和隐式正则化对随机凸优化中随机梯度下降的影响,提供了一种简单构造来排除控制 SGD 泛化能力的分布独立的隐式正则化器的存在,并且证明了分布依赖的一般类隐式正则化器不能解释泛化的学习问题,说明了仅仅通过隐式正则化的特性来全面解释算法的泛化性能存在重大困难。
Mar, 2020
本文通过比较全批量训练和 SGD 在现代结构下在 CIFAR-10 数据集上的表现,证明了 SGD 的隐式正则化可以完全被显式正则化替代,并指出全批量训练受限于优化性质和 ML 社区花费在小批量训练上的大量时间和精力。
Sep, 2021
通过对大规模深层神经网络的优化方法的研究,我们证明了 SGD 可以在多项式时间内发现 DNNs 训练目标上的全局极小值。
Nov, 2018
本研究针对模型学习速率为中等并逐渐降低的情况,研究了 SGD 和 GD 在超参数调节中的常见行为,以此试图解决机器学习中的算法偏差问题,并得出了不同方向偏差可能导致最终预测结果差异的结论。
Nov, 2020
SGD 使用隐式正则化训练深度神经网络的确切方式一直以来都很难界定,但我们证明了 SGD 最小化了一个与分布式权重后验分布相关的平均势能加一个熵正则化项,但这个势能通常与原始损失函数不同。此外,我们表明 SGD 在经典意义下甚至不会收敛,因此这种 ' 失衡 ' 的行为是由于对于深度网络,SGD 的梯度噪声是高度非各向同性的。我们在附录中给出了这些声明的广泛经验验证。
Oct, 2017
实验研究表明,Stochastic Gradient Descent 利用条件互信息学习了从线性分类器到逐渐复杂的函数的分类器,解释了超参数化区域中 SGD 学习的分类器为什么往往具有良好的泛化能力。
May, 2019
深度神经网络能够有效地学习目标函数的支持,并且小批量随机梯度下降具有隐式正则化效果,通过学习特征的结构,提高特征的可解释性。
Jun, 2024