基于结构化特征的随机梯度下降学习曲线
实验研究表明,Stochastic Gradient Descent 利用条件互信息学习了从线性分类器到逐渐复杂的函数的分类器,解释了超参数化区域中 SGD 学习的分类器为什么往往具有良好的泛化能力。
May, 2019
我们提供了一种针对大类特征映射的紧密渐近特征错误的表征,其中输入维度、隐藏层宽度和训练样本数在高维极限下成比例增加。我们的工作部分是受到了学习具有高斯彩虹神经网络的问题的启发,即具有随机但结构化权重的深层非线性全连接网络,它们的行协方差进一步允许依赖于前层的权重。对于这样的网络,我们还推导了一种以权重矩阵为基础的特征协方差的闭合形式公式。我们进一步发现,在某些情况下,我们的结果能够捕捉到通过梯度下降训练的深度有限宽度神经网络学得的特征映射。
Feb, 2024
本研究提出一种改善大批量训练的泛化性能并维持最优收敛的方法,即在梯度中添加协方差噪声,通过对噪声矩阵的对数 Frobenius 范数进行特征提取获得更精确的学习效果表现。实证研究表明该方法不仅可以提高大批量训练的泛化性能,而且不会影响优化性能以及训练时间。
Feb, 2019
我们深入探讨了随机梯度下降(SGD)的线性稳定性与锐利度之间的关系,并介绍了一种损失海森矩阵的一致性度量,用于判断 SGD 在最优点处的线性不稳定性。
Jan, 2024
使用较小的学习率和 SGD 最陡峭的方向进行训练可以提高模型的训练速度和泛化能力,而较大的学习率或较小的批量大小将导致 SGD 进入更宽的区域。
Jul, 2018
本文研究了随机梯度下降方法在训练大规模机器学习模型中的应用,分析了损失函数和数据分布对其泛化性能的影响,提出了改进的数据相关的上界和下降算法来进一步了解深度网络的泛化能力。
Feb, 2021
本文研究了随机梯度下降(SGD)在优化非凸函数方面的应用,提出了一些收敛理论,说明了在满足结构性假设的非凸问题中,SGD 能够收敛到全局最小值,分析过程基于一个期望残差条件,相比之前的假设更加宽松。
Jun, 2020