高阶 L2 正则化的线性 DNN 中隐式 SGD 偏差:由高到低秩的单向跳跃
该论文提出了一个可以研究 Stochastic Gradient Descent 在 overparametrized 模型中的隐式偏差的通用框架,该框架使用一个描述参数极限动态的随机微分方程,并考虑了任意噪声协方差,文中给出了一些新结果,同时可以在线性模型中进行应用。
Oct, 2021
本论文研究神经网络训练中的隐性偏差,探究梯度流和梯度下降的极限情况下,使用对数或指数损失函数对线性可分数据进行训练的深度线性网络的权重收敛于秩 1 矩阵的现象是否会发生于全连接层和跳跃连接层的 ReLU 激活前馈网络中,提出了一些训练不变性,并以特定参数方向收敛的 ReLU 网络的常数权重和多线性函数作为论据进行证明。
Jan, 2022
神经网络的海森矩阵的最大特征值(或清晰度)是理解其优化动态的关键量。本文研究超定单变量回归的深度线性网络的清晰度。虽然最小化器的清晰度可以任意大,但不可以任意小。事实上,我们证明了最小化器清晰度的下界与深度成线性增长。然后我们研究了梯度流找到的最小化器的性质,这是梯度下降的极限情况,学习率趋于零。我们证明了对于平坦最小值的隐式正则化:最小化器的清晰度不超过下界的一个常数倍。该常数取决于数据协方差矩阵的条件数,而不取决于宽度或深度。我们分别证明了小尺度初始化和残差初始化的结果。对于小尺度初始化,我们证明了所学权重矩阵近似为秩一及其奇异向量对齐。对于残差初始化,我们证明了高斯初始化的残差网络的梯度流的收敛性。数值实验验证了我们的结果,并将其与非零学习率的梯度下降联系在一起。
May, 2024
研究采用随机梯度下降法训练的神经网络,通过对每一次迭代的训练标签进行独立噪声扰动,得到一个隐式正则化项,从而驱动网络向简单模型发展,并以矩阵感知、一维数据下的两层 ReLU 网络训练以及单数据点下的两层 sigmoid 激活网络训练等三个简单场景进行了阐述。
Apr, 2019
研究表明,完全连接的神经网络在非线性齐次时的表示成本收敛于非线性函数的排序上,然后研究了何时可以恢复数据的 “真实” 排名,最后发现自编码器具有最优非线性排名是自然的去噪声的。
Sep, 2022
该研究探讨深度学习和人工智能中神经网络结构和梯度优化方法所施加的隐式规则化作用,并通过研究 Diagonal Linear Networks (DLNs) 的梯度流在过参数化回归设置下的隐式规则化,解释了泛化难度的相变现象与基础追踪优化问题收敛的关系,并且提出了新的收敛界限及其初值大小与选取最小化者的联系。
Jul, 2023
通过分析随机梯度下降算法在 Frobenius 范数正则化的 $logistic$ 损失函数上的最新进展,本文首次证明了对于任意数据和具有适当平滑和有界激活函数(如 $sigmoid$ 和 $tanh$)的门数量的 $2$ 层神经网络,SGD 能收敛到适当正则化的全局最小值;同时证明了连续时间 SGD 的指数快速收敛性,也适用于平滑的无界激活函数(如 $SoftPlus$)。
Sep, 2023
本文通过动态稳定性的角度研究了随机梯度下降法(SGD)的隐式正则化,并探讨了稳定的最小值对二层 ReLU 神经网络和对角线线性网络的广义性能影响,发现 SGD 的稳定性正则化较于 GD 更强,LR 越大效果越明显,解释了为什么 SGD 比 GD 更具普适性。
May, 2023