泄漏 ReLU 在超参数化网络的训练和泛化中的影响
本文通过评估不同类型的修正线性单元 rectified activation functions(包括:标准修正线性单元(ReLU),泄漏修正线性单元(Leaky ReLU),参数修正线性单元(PReLU)以及随机泄漏修正线性单元(RReLU))在图像分类任务中的表现,结论表明,对修正激活单元中的负部分引入非零斜率可以始终改善结果,从而推翻了稀疏性是 ReLU 良好性能的关键的常见信念。另外,在小规模数据集上,使用确定性的负斜率或学习固定斜率都容易过拟合,使用随机斜率则更为有效。通过使用 RReLU,我们在 CIFAR-100 测试集上实现了 75.68%的准确度(无多次测试或集合)。
May, 2015
本文研究使用带有 ReLU 的深度神经网络能够代表的函数家族,提供了一个训练一个 ReLU 深度神经网络的一种算法,同时提高了在将 ReLU 神经网络函数逼近为浅层 ReLU 网络时已知下限的上界,并证明了这些间隙定理。
Nov, 2016
本文研究从标准高斯分布采样输入,从嘈杂的教师网络生成输出的一层隐藏神经网络的学习问题。研究分析了梯度下降在基于经验风险最小化的训练中的性能,并提供了算法相关的保证,证明了张量初始化后跟随梯度下降可以以线性速率收敛到地面真值参数,证明本文是第一个表征实际学习具有多个神经元的一层 ReLU 网络的恢复保证的工作。数值实验验证了我们的理论发现。
Jun, 2018
对于具有最先进的逼近误差的 ReLU 结构,本研究的主要结果是其实现参数的增长至多是多项式的,与现有结果相比,在大多数情况下,特别是对于高维输入,该增长率优于现有结果。
Jun, 2024
最近深度学习取得了一些极有前途的成果,尤其是在深度神经网络的泛化能力方面,然而相关文献中仍缺乏一种全面的理论来解释为什么过度参数化的模型能够在拟合训练数据的同时表现出良好的泛化能力。本文通过估计通过梯度下降从初始参数向量获得的网络集合的 Rademacher 复杂度,提出了对前馈 ReLU 网络的泛化误差进行 PAC 类型边界的方法。关键思想是限定网络梯度对优化轨迹上输入数据扰动的敏感性。所得到的边界不显式依赖于网络的深度。我们在 MNIST 和 CIFAR-10 数据集上进行了实验证实。
Oct, 2023
通过 ReLU 神经网络,我们考虑了一类具有较小正则性假设的有界函数的逼近问题。我们展示了逼近误差可以由目标函数的均匀范数和网络宽度与深度的乘积的倒数来上界。我们从傅里叶特征残差网络中继承了这个逼近误差界,傅里叶特征残差网络是一种使用复指数激活函数的神经网络。我们的证明是具有建设性的,并通过对傅里叶特征残差网络逼近 ReLU 网络的复杂性分析进行。
May, 2024
本文中,我们在非线性神经网络学习问题上,通过精确量化每个训练算法所需的最小训练样本数量,以保证目标类中包含或由预定义结构的 ReLU 神经网络的高精度,从而证明了在非常一般的假设下,训练样本的最小数量随着网络结构的深度和输入维度呈指数级增长。
May, 2022
針對兩層完全連接的 (leaky) ReLU 神經網絡,研究梯度下降的隱含偏差,並證明梯度下降在訓練中會找到收斂於 1 的具有穩定排名的神經網絡,對於 ReLU 激活函數則收斂於一個上界常數,同時所有訓練數據點的標準化邊界漸進地相同。實驗結果對我們的理論結果進行了驗證。
Oct, 2023
本文提出了一种新的随机梯度下降算法,利用随机噪声扰动,无需任何假设于数据分布、网络大小和训练集大小,就能够证明地达到单隐藏层 ReLU 网络的全局最优性,同时提出了一些一般的泛化保证,此外,数值测试结果也验证了算法和理论的实用性。
Aug, 2018