单隐层ReLU网络的原理
研究表明,修正线性单元(ReLU)不仅可以改善梯度消失问题、实现高效反向传播,且在学习参数方面具有稀疏性;本文则从表现力的角度探究了ReLU网络的决策边界,并实验证明两层ReLU网络的决策边界可以被阈值网络广泛捕捉,而后者可能需要一个指数级别的更多的隐藏单元。此外,本文还提出了系数条件,将符号网络表示为ReLU网络的隐藏单元数量可以倍减。最后,作者通过对一些合成数据进行实验比较了ReLU网络和阈值网络及它们较小的ReLU网络的学习能力。
Nov, 2015
本文研究从标准高斯分布采样输入,从嘈杂的教师网络生成输出的一层隐藏神经网络的学习问题。研究分析了梯度下降在基于经验风险最小化的训练中的性能,并提供了算法相关的保证,证明了张量初始化后跟随梯度下降可以以线性速率收敛到地面真值参数,证明本文是第一个表征实际学习具有多个神经元的一层ReLU网络的恢复保证的工作。数值实验验证了我们的理论发现。
Jun, 2018
利用只有一个神经元和ReLU激活函数的堆叠模块组成的深度ResNet可以均匀逼近$d$维的任何Lebesgue可积函数,这对于输入宽度为$d$的全连接网络是不可能的,因此这一结果表明ResNet架构增加了窄深度网络的表征能力。
Jun, 2018
本文提出了一种新的随机梯度下降算法,利用随机噪声扰动,无需任何假设于数据分布、网络大小和训练集大小,就能够证明地达到单隐藏层ReLU网络的全局最优性,同时提出了一些一般的泛化保证,此外,数值测试结果也验证了算法和理论的实用性。
Aug, 2018
研究了ReLU网络的有限样本表达能力,证明了3层ReLU网络可以通过利用深度,并需要大约根号N个节点即可完美记忆大多数N个数据点,并证明大约根号N个节点是记忆N个数据点的必要和充分条件,同时证明当W = Omega(N)时,L层网络的带权参数可以记忆N个数据点。在全局位置假设下分析了负残差网络的记忆能力,并研究了随机梯度下降的动力学,证明了当在经验风险的记忆全局最小值附近初始化时,SGD可以很快找到风险更小的附近点。
Oct, 2018
本文研究两层神经网络的ReLU激活函数和平方损失函数的优化方法,利用一种交替迭代算法寻找损失函数的关键点,实验结果显示该算法能够比随机梯度下降和Adam优化器更快、更准确地求解深度值,并且该方法没有调参困扰。
Apr, 2023
我们提出了一个基于随机高阶矩张量收缩的多尺度算法,用于发现个别神经元。在学习由$k$个ReLU激活的线性组合方面,该算法是首个在多项式时间内成功的,而且无需额外假设网络的正系数或隐藏权重向量的矩阵具有良好的条件数。
Apr, 2023
研究了前馈ReLU神经网络架构的参数空间,证明了对于没有窄于输入层的任何网络架构,都存在没有隐藏对称性的参数设置,并通过实验近似计算了不同网络架构在初始化时的功能维度。
Jun, 2023
通过训练一个从一个小初始值开始的任意宽度的一层ReLU神经网络来证明,对于学习单个神经元的基本回归任务,该网络能收敛于零损失并隐含有利于最小化网络参数秩的偏见。
Jun, 2023