两层神经网络模型中梯度下降动态的熄灭 - 激活行为
本研究 对二层神经网络模型的梯度下降动态进行了较全面的分析,并考虑了在更新两个层的参数时,一般的初始化方案以及网络宽度和训练数据大小的一般方案。在过度参数化的情况下,梯度下降动态可以快速地达到零训练损失,无论标签的质量如何。此外,证明了神经网络模型所表示的函数始终与核方法的函数保持一致。对于网络宽度和训练数据大小的一般值,建立了适当的再生核 Hilbert 空间的目标函数的尖锐估计。
Apr, 2019
本文通过 Lyapunov 分析,证明了使用梯度下降法训练过程中神经网络权重的动态会收敛到接近最小范数解的一个点,并通过实例表明这一结论的意义在于 GD 收敛于泛化性能好的预测函数,从而提供了 Arora 等人的普适性结果的另一证明。
May, 2021
本文探讨了梯度下降在高维中非凸优化领域的应用,通过对浅层网络和窄网络的研究分析了其在全局收敛和局部最小值上的不同表现,研究了随机梯度下降的高维度动态学习中学习率、时间尺度和隐藏单元数量之间的相互作用,并提供了统计物理学中基于确定性描述的 SGD 收敛速率的扩展分析。
Feb, 2022
在大规模数据训练下,研究了超参数化两层神经网络在教师 - 学生的设置下的动态和表现,证明了 SGD 的一组微分方程可以捕捉到动态,同时揭示了不同激活函数找到的解决方案的不同表现,并发现了对于神经网络的良好泛化,不仅取决于 SGD 的性质,还取决于算法,模型架构和数据集的相互作用。
Jun, 2019
通过对大步长梯度下降在二次回归模型中的动力学进行全面调查,揭示了动力学可以由特定的三次映射来描述,并通过细致的分叉分析划分了五个不同的训练阶段,同时研究了非单调和非发散阶段的泛化性能。
Oct, 2023
研究 SGD 训练的深度神经网络在性能收敛后的步长限制动态,揭示了优化超参数、梯度噪声结构及训练结束时 Hessian 矩阵之间错综复杂的相互作用,通过统计物理学的视角解释这种异常扩散现象并在 ImageNet 数据集的 ResNet-18 模型上得到了实证验证。
Jul, 2021
本论文在研究多层神经网络的优化问题,发现随机梯度下降算法会收敛到一个全局最优点,且这一点具有很好的泛化能力。结果表明,适当的尺度下,随机梯度下降动态可以通过某个非线性偏微分方程捕捉,从而证明了 SGD 的收敛性。
Apr, 2018
研究了具有跳跃连接的深度神经网络模型的梯度下降算法的行为。证明了在超参数化区域内,通过适当的初始化,梯度下降可以以指数速度找到全局最小值。建立了沿着梯度下降路径的泛化误差评估,并得出在目标函数是由初始化定义的核定义的再生核希尔伯特空间(RKHS)时,沿着梯度下降路径存在可推广的提前停止解的结论。此外,还证明了 GD 路径与相关随机特征模型给出的函数之间的一致接近。因此,在这种 “隐式正则化” 环境中,深度神经网络模型退化为一个随机特征模型。结果适用于任何宽度大于输入维度的神经网络。
Apr, 2019
通过对教师 - 学生感知器分类模型的研究,我们在 B-η 平面上获得了一个相图,分为三个动力学相:(i) 由温度控制的噪声主导的 SGD,(ii) 由大步长主导的 SGD 和 (iii) GD,这些不同相还对应着不同的泛化误差区域。有趣的是,我们的分析揭示了将相 (i) 和相 (ii) 分隔开的批次大小 B * 与训练集大小 P 呈比例,其中的指数表征了分类问题的难度。
Sep, 2023