两层神经网络模型中梯度下降动态的熄灭 - 激活行为

Jun, 2020

两层神经网络模型中梯度下降动态的熄灭 - 激活行为

The Quenching-Activation Behavior of the Gradient Descent Dynamics for Two-layer Neural Network Models

Chao Ma, Lei Wu, Weinan E

TL;DR探讨了梯度下降算法在训练两层神经网络模型时的现象学和数值研究，提出了显式正则化机制，并发现了网络的动态行为.

Abstract

A numerical and phenomenological study of the gradient descent (GD) algorithm for training two-layer neural network models is carried out for different parameter regimes when the target function can be accurately

gradient descent neural network regularization parametrized regime xavier-like initialization

发现论文，激发创造

两层神经网络和随机特征模型在梯度下降动态下优化和泛化属性的比较分析

本研究对二层神经网络模型的梯度下降动态进行了较全面的分析，并考虑了在更新两个层的参数时，一般的初始化方案以及网络宽度和训练数据大小的一般方案。在过度参数化的情况下，梯度下降动态可以快速地达到零训练损失，无论标签的质量如何。此外，证明了神经网络模型所表示的函数始终与核方法的函数保持一致。对于网络宽度和训练数据大小的一般值，建立了适当的再生核 Hilbert 空间的目标函数的尖锐估计。

Apr, 2019

超参数神经网络的梯度下降动力学

本文通过 Lyapunov 分析，证明了使用梯度下降法训练过程中神经网络权重的动态会收敛到接近最小范数解的一个点，并通过实例表明这一结论的意义在于 GD 收敛于泛化性能好的预测函数，从而提供了 Arora 等人的普适性结果的另一证明。

May, 2021

高维双层神经网络中的随机梯度下降相图

本文探讨了梯度下降在高维中非凸优化领域的应用，通过对浅层网络和窄网络的研究分析了其在全局收敛和局部最小值上的不同表现，研究了随机梯度下降的高维度动态学习中学习率、时间尺度和隐藏单元数量之间的相互作用，并提供了统计物理学中基于确定性描述的 SGD 收敛速率的扩展分析。

Feb, 2022

教师 - 学生设置下的两层神经网络随机梯度下降动力学

在大规模数据训练下，研究了超参数化两层神经网络在教师 - 学生的设置下的动态和表现，证明了 SGD 的一组微分方程可以捕捉到动态，同时揭示了不同激活函数找到的解决方案的不同表现，并发现了对于神经网络的良好泛化，不仅取决于 SGD 的性质，还取决于算法，模型架构和数据集的相互作用。

Jun, 2019

从稳定到混沌：分析二次回归中的梯度下降动态

通过对大步长梯度下降在二次回归模型中的动力学进行全面调查，揭示了动力学可以由特定的三次映射来描述，并通过细致的分叉分析划分了五个不同的训练阶段，同时研究了非单调和非发散阶段的泛化性能。

Oct, 2023

线性神经网络中离散梯度动态的隐式正则化

本文研究了过参数化模型的离散梯度动态，并证明在使用适当超参数和初始化条件时，该动态可以学习降低秩的回归问题的解。

Apr, 2019

SGD 的极限动力学：修改的损失，相空间振荡和反常扩散

研究 SGD 训练的深度神经网络在性能收敛后的步长限制动态，揭示了优化超参数、梯度噪声结构及训练结束时 Hessian 矩阵之间错综复杂的相互作用，通过统计物理学的视角解释这种异常扩散现象并在 ImageNet 数据集的 ResNet-18 模型上得到了实证验证。

Jul, 2021

两层神经网络格势的均场视角

本论文在研究多层神经网络的优化问题，发现随机梯度下降算法会收敛到一个全局最优点，且这一点具有很好的泛化能力。结果表明，适当的尺度下，随机梯度下降动态可以通过某个非线性偏微分方程捕捉，从而证明了 SGD 的收敛性。

Apr, 2018

深度神经网络模型中带有跨连接的梯度下降算法分析

研究了具有跳跃连接的深度神经网络模型的梯度下降算法的行为。证明了在超参数化区域内，通过适当的初始化，梯度下降可以以指数速度找到全局最小值。建立了沿着梯度下降路径的泛化误差评估，并得出在目标函数是由初始化定义的核定义的再生核希尔伯特空间（RKHS）时，沿着梯度下降路径存在可推广的提前停止解的结论。此外，还证明了 GD 路径与相关随机特征模型给出的函数之间的一致接近。因此，在这种 “隐式正则化” 环境中，深度神经网络模型退化为一个随机特征模型。结果适用于任何宽度大于输入维度的神经网络。

Apr, 2019

随机梯度下降的不同制度

通过对教师 - 学生感知器分类模型的研究，我们在 B-η 平面上获得了一个相图，分为三个动力学相：(i) 由温度控制的噪声主导的 SGD，(ii) 由大步长主导的 SGD 和 (iii) GD，这些不同相还对应着不同的泛化误差区域。有趣的是，我们的分析揭示了将相 (i) 和相 (ii) 分隔开的批次大小 B * 与训练集大小 P 呈比例，其中的指数表征了分类问题的难度。

Sep, 2023