研究如何使用 ReLU 激活函数、梯度下降和随机梯度下降来训练深度神经网络,证明在一定条件下,充分的随机权重初始化能够让这些方法在超参数化的深层 ReLU 网络上达到全局最小值。
Nov, 2018
本文研究表明,在神经网络中使用 ReLU 激活函数和随机初始化梯度下降法可以以全局线性收敛率收敛于全局最优解,其分析依赖于神经网络的超参数和随机初始化方式,这些经验也可能有助于分析深度网络等其他一阶方法。
Oct, 2018
本文研究从标准高斯分布采样输入,从嘈杂的教师网络生成输出的一层隐藏神经网络的学习问题。研究分析了梯度下降在基于经验风险最小化的训练中的性能,并提供了算法相关的保证,证明了张量初始化后跟随梯度下降可以以线性速率收敛到地面真值参数,证明本文是第一个表征实际学习具有多个神经元的一层 ReLU 网络的恢复保证的工作。数值实验验证了我们的理论发现。
Jun, 2018
本文通过 Lyapunov 分析,证明了使用梯度下降法训练过程中神经网络权重的动态会收敛到接近最小范数解的一个点,并通过实例表明这一结论的意义在于 GD 收敛于泛化性能好的预测函数,从而提供了 Arora 等人的普适性结果的另一证明。
May, 2021
本文介绍了在一个维度输入下,解决最小二乘插值的超参数化浅层 ReLU 网络的梯度动态的理论和实证研究,阐述了这种网络的梯度动态通过网络函数的非冗余参数化来确定,同时还研究了两种学习模式:核函数和自适应函数,以及它们所对应的性质。
Jun, 2019
通过对大规模深层神经网络的优化方法的研究,我们证明了 SGD 可以在多项式时间内发现 DNNs 训练目标上的全局极小值。
本文分析了使用随机梯度下降(SGD)训练包含 ReLU 激活函数的两层前馈神经网络中所谓的 “恒等映射” 结构和高斯分布输入的情况下 SGD 收敛的机理,并通过实验证明使用该结构的多层神经网络具有比普通神经网络更好的性能。
May, 2017
研究深度神经网络的训练和泛化,在过度参数化的条件下,通过神经切向随机特征模型 (NTRF) 来限制泛化误差,并建立了神经切向内核 (NTK) 的联系。
May, 2019
研究神经网络在激活层和输出加权和层下的训练复杂性,并在高斯分布条件下证明 GD 收敛于最好逼近目标函数的多项式的最小误差,并发现 GD 在发现低频傅立叶分量之前要先发现高频分量。
May, 2018
通过算法依赖的综合误差界推导,论文解释了过度参数化的深度神经网络在合适的随机初始化下,使用梯度下降法可以获得任意小的泛化误差。
Feb, 2019