基于结构化特征的随机梯度下降学习曲线

ICLRJun, 2021

基于结构化特征的随机梯度下降学习曲线

Learning Curves for SGD on Structured Features

Blake Bordelon, Cengiz Pehlevan

TL;DR研究机器学习算法（如神经网络）的泛化能力如何受数据分布结构影响，提出了一种基于随机梯度下降的可解模型来预测任意协方差结构的特征测试误差，并在各种数据集上验证其准确性；同时证明小批量 SGD 在固定计算预算下的最优批量通常较小，取决于特征相关性结构。

Abstract

The generalization performance of a machine learning algorithm such as a neural network depends in a non-trivial way on the structure of the data distribution. To analyze the influence of →

machine learning neural network stochastic gradient descent data structure test loss

发现论文，激发创造

神经网络上的随机梯度下降学习越来越复杂的函数

实验研究表明，Stochastic Gradient Descent 利用条件互信息学习了从线性分类器到逐渐复杂的函数的分类器，解释了超参数化区域中 SGD 学习的分类器为什么往往具有良好的泛化能力。

May, 2019

深度结构（随机）特征的学习渐近性

我们提供了一种针对大类特征映射的紧密渐近特征错误的表征，其中输入维度、隐藏层宽度和训练样本数在高维极限下成比例增加。我们的工作部分是受到了学习具有高斯彩虹神经网络的问题的启发，即具有随机但结构化权重的深层非线性全连接网络，它们的行协方差进一步允许依赖于前层的权重。对于这样的网络，我们还推导了一种以权重矩阵为基础的特征协方差的闭合形式公式。我们进一步发现，在某些情况下，我们的结果能够捕捉到通过梯度下降训练的深度有限宽度神经网络学得的特征映射。

Feb, 2024

大批次随机梯度下降与结构协方差噪声的实证研究

本研究提出一种改善大批量训练的泛化性能并维持最优收敛的方法，即在梯度中添加协方差噪声，通过对噪声矩阵的对数 Frobenius 范数进行特征提取获得更精确的学习效果表现。实证研究表明该方法不仅可以提高大批量训练的泛化性能，而且不会影响优化性能以及训练时间。

Feb, 2019

特征污染：神经网络学习不相关特征且泛化能力不佳

深度神经网络在分布变化下的泛化能力与特征污染、归纳偏差等因素相关，并非仅仅是偶然性相关。

Jun, 2024

使用损失面几何精确刻画 SGD 的稳定性

我们深入探讨了随机梯度下降（SGD）的线性稳定性与锐利度之间的关系，并介绍了一种损失海森矩阵的一致性度量，用于判断 SGD 在最优点处的线性不稳定性。

Jan, 2024

深度神经网络损失函数的极限方向与随机梯度下降步长的关系

使用较小的学习率和 SGD 最陡峭的方向进行训练可以提高模型的训练速度和泛化能力，而较大的学习率或较小的批量大小将导致 SGD 进入更宽的区域。