泄漏 ReLU 在超参数化网络的训练和泛化中的影响

Feb, 2024

泄漏 ReLU 在超参数化网络的训练和泛化中的影响

The effect of Leaky ReLUs on the training and generalization of overparameterized networks

Yinglong Guo, Shaohan Li, Gilad Lerman

TL;DR我们研究了具有广泛的漏斗修复线性统一函数的过参数神经网络的训练和泛化误差。我们对此类神经网络的训练误差的收敛速率和泛化误差进行了上界估计，并研究了这些上界与漏斗修复线性统一参数 alpha 的依赖关系。我们证明了 alpha 等于 - 1，对应于绝对值激活函数，是训练误差上界的最优选择。此外，在特定的设置下，它也是泛化误差上界的最优选择。数值实验在实践中支持了由理论指导的实际选择。

Abstract

We investigate the training and generalization errors of overparameterized neural networks (NNs) with a wide class of leaky rectified linear unit (ReLU) functions. More specifically, we carefully upper bound both the convergence rate of the training error and the →

neural networks leaky relu convergence rate generalization error empirical experiments

发现论文，激发创造

卷积网络中修正的激活函数的实证评估

本文通过评估不同类型的修正线性单元 rectified activation functions（包括：标准修正线性单元（ReLU），泄漏修正线性单元（Leaky ReLU），参数修正线性单元（PReLU）以及随机泄漏修正线性单元（RReLU））在图像分类任务中的表现，结论表明，对修正激活单元中的负部分引入非零斜率可以始终改善结果，从而推翻了稀疏性是 ReLU 良好性能的关键的常见信念。另外，在小规模数据集上，使用确定性的负斜率或学习固定斜率都容易过拟合，使用随机斜率则更为有效。通过使用 RReLU，我们在 CIFAR-100 测试集上实现了 75.68％的准确度（无多次测试或集合）。

May, 2015

使用修正线性单元理解深度神经网络

本文研究使用带有 ReLU 的深度神经网络能够代表的函数家族，提供了一个训练一个 ReLU 深度神经网络的一种算法，同时提高了在将 ReLU 神经网络函数逼近为浅层 ReLU 网络时已知下限的上界，并证明了这些间隙定理。

Nov, 2016

通过梯度下降学习具有一层 ReLU 的神经网络

本文研究从标准高斯分布采样输入，从嘈杂的教师网络生成输出的一层隐藏神经网络的学习问题。研究分析了梯度下降在基于经验风险最小化的训练中的性能，并提供了算法相关的保证，证明了张量初始化后跟随梯度下降可以以线性速率收敛到地面真值参数，证明本文是第一个表征实际学习具有多个神经元的一层 ReLU 网络的恢复保证的工作。数值实验验证了我们的理论发现。

Jun, 2018

关于近似 ReLU 神经网络参数的增长

对于具有最先进的逼近误差的 ReLU 结构，本研究的主要结果是其实现参数的增长至多是多项式的，与现有结果相比，在大多数情况下，特别是对于高维输入，该增长率优于现有结果。

Jun, 2024

基于切空间敏感性的 ReLU 网络的优化相关泛化界

最近深度学习取得了一些极有前途的成果，尤其是在深度神经网络的泛化能力方面，然而相关文献中仍缺乏一种全面的理论来解释为什么过度参数化的模型能够在拟合训练数据的同时表现出良好的泛化能力。本文通过估计通过梯度下降从初始参数向量获得的网络集合的 Rademacher 复杂度，提出了对前馈 ReLU 网络的泛化误差进行 PAC 类型边界的方法。关键思想是限定网络梯度对优化轨迹上输入数据扰动的敏感性。所得到的边界不显式依赖于网络的深度。我们在 MNIST 和 CIFAR-10 数据集上进行了实验证实。

Oct, 2023

ReLU 网络在低正则函数空间中的逼近误差和复杂度界

通过 ReLU 神经网络，我们考虑了一类具有较小正则性假设的有界函数的逼近问题。我们展示了逼近误差可以由目标函数的均匀范数和网络宽度与深度的乘积的倒数来上界。我们从傅里叶特征残差网络中继承了这个逼近误差界，傅里叶特征残差网络是一种使用复指数激活函数的神经网络。我们的证明是具有建设性的，并通过对傅里叶特征残差网络逼近 ReLU 网络的复杂性分析进行。

May, 2024

学习 ReLU 网络以高均匀精度是不可解的

本文中，我们在非线性神经网络学习问题上，通过精确量化每个训练算法所需的最小训练样本数量，以保证目标类中包含或由预定义结构的 ReLU 神经网络的高精度，从而证明了在非常一般的假设下，训练样本的最小数量随着网络结构的深度和输入维度呈指数级增长。

May, 2022

学习超参数化深度 ReLU 网络的梯度下降泛化误差界

通过算法依赖的综合误差界推导，论文解释了过度参数化的深度神经网络在合适的随机初始化下，使用梯度下降法可以获得任意小的泛化误差。

Feb, 2019

对近似正交数据的两层 ReLU 和 Leaky ReLU 网络的梯度下降的隐式偏差

針對兩層完全連接的 (leaky) ReLU 神經網絡，研究梯度下降的隱含偏差，並證明梯度下降在訓練中會找到收斂於 1 的具有穩定排名的神經網絡，對於 ReLU 激活函數則收斂於一個上界常數，同時所有訓練數據點的標準化邊界漸進地相同。實驗結果對我們的理論結果進行了驗證。

Oct, 2023

线性可分数据上的 ReLU 网络学习：算法，最优性和泛化

本文提出了一种新的随机梯度下降算法，利用随机噪声扰动，无需任何假设于数据分布、网络大小和训练集大小，就能够证明地达到单隐藏层 ReLU 网络的全局最优性，同时提出了一些一般的泛化保证，此外，数值测试结果也验证了算法和理论的实用性。

Aug, 2018