深度 ReLU 隐式网络的全局收敛理论：基于过度参数化

ICLROct, 2021

深度 ReLU 隐式网络的全局收敛理论：基于过度参数化

A global convergence theory for deep ReLU implicit networks via over-parameterization

Tianxiang Gao, Hailiang Liu, Jia Liu, Hridesh Rajan, Hongyang Gao

TL;DR本文分析了 ReLU 激活的隐式神经网络的梯度流，证明了如果隐式神经网络是超参数化的，那么一个随机初始化的梯度下降法可以以线性速率收敛到全局最小值，这一结果与有限层参数超过的神经网络的收敛结果不同，因为本文的结论适用于无限层的神经网络。

Abstract

implicit deep learning has received increasing attention recently due to the fact that it generalizes the recursive prediction rules of many commonly used neural network architectures. Its prediction rule is provided implicitly based on the solution of an →

implicit deep learning equilibrium equation rectified linear unit over-parameterized convergence

发现论文，激发创造

深度学习的超参数化收敛理论

通过对大规模深层神经网络的优化方法的研究，我们证明了 SGD 可以在多项式时间内发现 DNNs 训练目标上的全局极小值。

Nov, 2018

关于隐式深度学习的理论：隐式层的全局收敛性

本文基于深度平衡模型，分析其具有非凸目标函数和非线性权重矩阵的回归与分类问题的梯度动态，证明了在没有对模型宽度的任何假设的情况下会以线性速率收敛到全局最优解，同时关注了隐式层的隐式偏差和其与浅层显式层的动态的关系。

Feb, 2021

超参数化神经网络中的隐式正则化

本文通过引入梯度间隙偏差和梯度偏转等统计量，从理论和实证角度研究了内隐正则化在 ReLU 神经网络中的运作方式，结果表明通过随机初始化和随机梯度下降的方式有效地控制网络输出，使其在样本之间直线插值且负责度较低。

Mar, 2019

关于使用线性宽度进行深度 ReLU 网络梯度下降全局收敛的证明

本文利用 Lipschitz 性质，仅需跟踪最后一个隐藏层的输出的演变，即可证明标准平方误差梯度下降可在单个宽层的 ReLU 网络中实现全局收敛，并显示了一些其跟先前的技术相比的改进。

Jan, 2021

梯度下降证明过参数化神经网络的最优化

本文研究表明，在神经网络中使用 ReLU 激活函数和随机初始化梯度下降法可以以全局线性收敛率收敛于全局最优解，其分析依赖于神经网络的超参数和随机初始化方式，这些经验也可能有助于分析深度网络等其他一阶方法。

Oct, 2018

对近似正交数据的两层 ReLU 和 Leaky ReLU 网络的梯度下降的隐式偏差

針對兩層完全連接的 (leaky) ReLU 神經網絡，研究梯度下降的隱含偏差，並證明梯度下降在訓練中會找到收斂於 1 的具有穩定排名的神經網絡，對於 ReLU 激活函數則收斂於一個上界常數，同時所有訓練數據點的標準化邊界漸進地相同。實驗結果對我們的理論結果進行了驗證。

Oct, 2023

随机梯度下降优化超参数化的深度 ReLU 网络

研究如何使用 ReLU 激活函数、梯度下降和随机梯度下降来训练深度神经网络，证明在一定条件下，充分的随机权重初始化能够让这些方法在超参数化的深层 ReLU 网络上达到全局最小值。

Nov, 2018

迈向适度的过度参数化：为训练浅层神经网络提供全局收敛保证

本文探讨了神经网络的过度参数化现象对于梯度下降收敛至全域最优解所需的程度及类型，并结合实验结果以浅层神经网络和平滑激活函数为例，证明了只需参数数量高于数据集大小的平方根时，梯度下降随机初始化即可收敛至全域最优解。

Feb, 2019

深度 ReLU 网络学习所需的过度参数化程度是多少？

本研究探讨了在过度参数化的深度神经网络中，当网络宽度大于训练样本大小和目标误差的高次多项式的倒数时，通过（随机）梯度下降学习的深度神经网络可以获得良好的优化和泛化性能。此外，我们还构建了深层 ReLU 网络的学习保证，使得网络宽度对 n 和 ϵ 的对数具有良好保证。

Nov, 2019

关于训练深层线性 ResNets 的全局收敛性

本研究讨论使用梯度下降和随机梯度下降算法进行训练具有 $L$ 层隐藏层的线性残差神经网络（ResNets）所需的网络宽度和线性变换；并且证明了在特定的线性变换和零初始化条件下，GD 和 SGD 算法能够收敛到最小训练误差的全局最小值。

Mar, 2020