梯度下降量化 ReLU 网络特征

Mar, 2018

Gradient Descent Quantizes ReLU Network Features

Hartmut Maennel, Olivier Bousquet, Sylvain Gelly

TL;DR研究深度神经网络在过度参数化的情况下训练的现象，发现在网络具有小初值和学习率的假设下，权重向量趋向于集中在少量由数据决定的方向，这使得对于给定的输入数据，网络大小独立，只能得到有限数量的函数

Abstract

deep neural networks are often trained in the over-parametrized regime (i.e. with far more parameters than training examples), and understanding why the training converges to solutions that generalize remains an

deep neural networks over-parametrized regime mini-batch stochastic gradient descent relu activation function quantization effect

发现论文，激发创造

随机梯度下降优化超参数化的深度 ReLU 网络

研究如何使用 ReLU 激活函数、梯度下降和随机梯度下降来训练深度神经网络，证明在一定条件下，充分的随机权重初始化能够让这些方法在超参数化的深层 ReLU 网络上达到全局最小值。

Nov, 2018

梯度下降证明过参数化神经网络的最优化

本文研究表明，在神经网络中使用 ReLU 激活函数和随机初始化梯度下降法可以以全局线性收敛率收敛于全局最优解，其分析依赖于神经网络的超参数和随机初始化方式，这些经验也可能有助于分析深度网络等其他一阶方法。

Oct, 2018

通过梯度下降学习具有一层 ReLU 的神经网络

本文研究从标准高斯分布采样输入，从嘈杂的教师网络生成输出的一层隐藏神经网络的学习问题。研究分析了梯度下降在基于经验风险最小化的训练中的性能，并提供了算法相关的保证，证明了张量初始化后跟随梯度下降可以以线性速率收敛到地面真值参数，证明本文是第一个表征实际学习具有多个神经元的一层 ReLU 网络的恢复保证的工作。数值实验验证了我们的理论发现。

Jun, 2018

超参数神经网络的梯度下降动力学

本文通过 Lyapunov 分析，证明了使用梯度下降法训练过程中神经网络权重的动态会收敛到接近最小范数解的一个点，并通过实例表明这一结论的意义在于 GD 收敛于泛化性能好的预测函数，从而提供了 Arora 等人的普适性结果的另一证明。

May, 2021

浅层一元 ReLU 网络的梯度动力学

本文介绍了在一个维度输入下，解决最小二乘插值的超参数化浅层 ReLU 网络的梯度动态的理论和实证研究，阐述了这种网络的梯度动态通过网络函数的非冗余参数化来确定，同时还研究了两种学习模式：核函数和自适应函数，以及它们所对应的性质。

Jun, 2019

深度学习的超参数化收敛理论

通过对大规模深层神经网络的优化方法的研究，我们证明了 SGD 可以在多项式时间内发现 DNNs 训练目标上的全局极小值。

Nov, 2018

具有 ReLU 激活函数的双层神经网络的收敛性分析

本文分析了使用随机梯度下降（SGD）训练包含 ReLU 激活函数的两层前馈神经网络中所谓的 “恒等映射” 结构和高斯分布输入的情况下 SGD 收敛的机理，并通过实验证明使用该结构的多层神经网络具有比普通神经网络更好的性能。

May, 2017

广泛和深度神经网络的随机梯度下降的泛化界限

研究深度神经网络的训练和泛化，在过度参数化的条件下，通过神经切向随机特征模型 (NTRF) 来限制泛化误差，并建立了神经切向内核 (NTK) 的联系。

May, 2019

一层隐藏层神经网络的梯度下降：多项式收敛和 SQ 下界

研究神经网络在激活层和输出加权和层下的训练复杂性，并在高斯分布条件下证明 GD 收敛于最好逼近目标函数的多项式的最小误差，并发现 GD 在发现低频傅立叶分量之前要先发现高频分量。

May, 2018

学习超参数化深度 ReLU 网络的梯度下降泛化误差界

通过算法依赖的综合误差界推导，论文解释了过度参数化的深度神经网络在合适的随机初始化下，使用梯度下降法可以获得任意小的泛化误差。

Feb, 2019