学习可分数据的两层神经网络的快速收敛
通过分析随机梯度下降算法在 Frobenius 范数正则化的 $logistic$ 损失函数上的最新进展,本文首次证明了对于任意数据和具有适当平滑和有界激活函数(如 $sigmoid$ 和 $tanh$)的门数量的 $2$ 层神经网络,SGD 能收敛到适当正则化的全局最小值;同时证明了连续时间 SGD 的指数快速收敛性,也适用于平滑的无界激活函数(如 $SoftPlus$)。
Sep, 2023
对采用严格单调尾部的损失函数(如对数损失)在可分离数据集上利用梯度下降时的隐式偏差进行了详细研究,证明了对于一大类超多项式尾部损失,梯度下降迭代可以收敛到任意深度的线性网络的 L2 最大边距解。
Mar, 2018
本文研究了 Leaky ReLU 神经网络的全局最优性,证明了线性可分对称数据上的梯度流算法能够收敛于全局最优的 “max-margin” 解,同时还对梯度下降在训练初期的 “简单度偏向” 现象进行了理论解释。
Oct, 2021
神经网络的大步梯度下降(GD)训练通常包括两个不同的阶段,第一阶段中经验风险震荡,而第二阶段中经验风险单调下降。我们研究了满足近准同质条件的两层网络中的这一现象。我们展示第二阶段开始于经验风险低于特定阈值(依赖于步长)的时刻。此外,我们展示了归一化边界在第二阶段几乎单调增长,证明了 GD 在训练非同质预测器时的内在偏差。如果数据集线性可分且激活函数的导数不为零,我们证明平均经验风险下降,暗示第一阶段必须在有限步骤中停止。最后,我们展示选择合适大步长的 GD 在经历这种阶段过渡时比单调降低风险的 GD 更高效。我们的分析适用于任意宽度的网络,超出了众所周知的神经切线核和平均场范围。
Jun, 2024
本文首次分析了自然梯度下降在非线性神经网络中的收敛速度,发现若序列导数矩阵显满秩且在初始化附近稳定,则该方法在随机初始化时就能快速收敛。对于深度 ReLU 神经网络,作者在过度参数化及输入非退化的条件下论证了这两个条件在训练期间均得以保持,并将分析拓展到其他损失函数,同时说明使用 K-FAC 近似方法也能在相同条件下达到全局最小值。
May, 2019
通过学习两层的过参数化神经网络在使用 Leaky ReLU 激活函数的情况下,为 SGD 进行了优化和泛化的保证,具有独立于网络规模的泛化保证。
Oct, 2017
本文通过 Lyapunov 分析,证明了使用梯度下降法训练过程中神经网络权重的动态会收敛到接近最小范数解的一个点,并通过实例表明这一结论的意义在于 GD 收敛于泛化性能好的预测函数,从而提供了 Arora 等人的普适性结果的另一证明。
May, 2021
本文探讨了采用 SGD 进行机器学习的收敛性问题,特别是在采用线性可分数据及单调函数损失函数的情况下,证明了 SGD 在固定非零学习率的条件下可以收敛至零损失,对于分类问题中的单调函数损失函数(例如对数损失),每次迭代权重向量趋向于 $L_2$ 最大裕度向量,且损失以 $O (1/t)$ 的速率收敛。
Jun, 2018
本文研究在白化数据上,通过梯度下降来训练深度线性神经网络收敛到全局最优点的速度。当隐藏层数的维度不小于输入输出维度的最小值,并且初始化的权重矩阵大致平衡且初始损失小于任何秩缺失解时,可保证线性收敛。此外,在输出维度为 1 的情况下,即标量回归,这些条件是满足的,并且在随机初始化方案下具有恒定的概率达到全局最优解。
Oct, 2018
通过研究表明,在现代机器学习中,采用具有极高表现力的模型进行训练,可以实现完全拟合或内插数据,从而得到零训练损失。我们证明,采用恒定步长随机梯度下降法(SGD)与 Nesterov 加速法具有相同的收敛速度,适用于凸和强凸函数。同时,我们发现,SGD 可以在非凸情况下像全梯度下降法一样高效地找到一阶稳定点。最后,我们通过对合成和真实数据集的实验验证了我们的理论发现。
Oct, 2018