具有阈值和 ReLU 激活函数的神经网络的记忆容量

Jan, 2020

具有阈值和 ReLU 激活函数的神经网络的记忆容量

Memory capacity of neural networks with threshold and ReLU activations

Roman Vershynin

TL;DR本文探究神经网络模型，证明了具有 sigmoid 或 ReLU 激活函数的过度参数化的模型在训练数据超过一定数量后，具有百分之百的记忆能力。

Abstract

Overwhelming theoretical and empirical evidence shows that mildly overparametrized neural networks -- those with more connections than the size of the →

neural networks overparametrized training data sigmoid activation relu activation

发现论文，激发创造

双层神经网络在记忆中的网络尺寸和权重尺寸

使用复合的神经元重组，提出一种新的针对 ReLU 网络的训练方法，使得仅需使用数目较少的神经元就可以进行近似记忆，并且权重大小接近最优。

Jun, 2020

具有平滑激活函数的两层神经网络的内存容量

通过计算雅可比矩阵中涉及亏格阵幂和 Khati-Rao 乘积的矩阵的秩，我们确定了具有 m 个隐藏神经元和输入维度 d（即，md+m 个可训练参数）的双层神经网络的记忆容量下界为 md/2，并以大约 2 倍的优势进行了最优性分析。

Aug, 2023

小型 ReLU 网络具有强大的记忆能力：记忆容量的严密分析

研究了 ReLU 网络的有限样本表达能力，证明了 3 层 ReLU 网络可以通过利用深度，并需要大约根号 N 个节点即可完美记忆大多数 N 个数据点，并证明大约根号 N 个节点是记忆 N 个数据点的必要和充分条件，同时证明当 W = Omega（N）时，L 层网络的带权参数可以记忆 N 个数据点。在全局位置假设下分析了负残差网络的记忆能力，并研究了随机梯度下降的动力学，证明了当在经验风险的记忆全局最小值附近初始化时，SGD 可以很快找到风险更小的附近点。

Oct, 2018

轻度过参数化神经网络能够高效地记忆训练数据

本文研究发现，为了在过量参数化情况下实现 100％的准确率，神经网络可以训练出能够完美记忆训练数据的能力，即使在神经元数量要远小于训练样本数量的情况下依旧适用。

Sep, 2019

关于 ReLU 神经网络的最佳记忆能力

本研究探讨了前向 ReLU 神经网络的记忆能力，发现使用大约 O (sqrt (N)) 个参数可以记忆任何满足一定可分性假设的 N 个点。我们还提出了一个更一般化的构造，可以使用更少的大约 N/L 个参数记忆 N 个样本，其中 1≤L≤sqrt (N)。我们的构造使用具有大位复杂度的权重，证明了这种大位复杂度对于用一个次线性数量参数进行记忆既是必要的又是充分的。

Oct, 2021

具有线性阈值激活函数的神经网络：结构与算法

本文研究了使用线性阈值激活函数的神经网络，探究了这种类型的函数可以被表示的范围，证明了用两层隐藏层可以表示任何在这个范围内的函数。同时提出了一种算法，用于解决这种类型神经网络的经验风险最小化问题，可以在多项式时间内进行。基于这些研究发现，我们提出了一种新型神经网络 —— 快捷线性阈值网络。

Nov, 2021

具有条件计算的神经网络的记忆容量

研究神经条件计算的基本限制和记忆能力，展示条件 ReLU 网络可以用更少的算术操作完成相同任务，还介绍了一种将无条件网络合成为条件网络的有效方法。

Mar, 2023

神经网络中 ReLU 激活函数和 Softmax 输出层的逼近性能研究

该研究论文扩展了通用近似理论，说明了使用 ReLU 激活函数和非线性 softmax 输出层的神经网络能够以任意精度逼近任何在 L1 空间中的函数，并且可用于解决实际的多类别模式分类问题中。此外，这是 softmax 输出层在神经网络中用于模式分类的第一个理论证明。

Feb, 2020

几乎无过度参数化的神经网络学习和记忆

本文研究了通过神经网络算法实现各种模型的多项式时间可学习性，证明了 SGD 在深度为二的神经网络上能够记忆样本、学习有界权重的多项式，以及学习某些内核空间，并且这些网络具有接近最优的网络大小、样本复杂度和运行时间。

Nov, 2019

深度的 ReLU 网络具有惊人地少的激活模式

本文研究表明，深度神经网络的理论表达能力与实际学习能力存在较大差距，即使在初始化和训练期间模型中的激活模式数量也呈现出一定限制，这可能限制了现有方法实现深度神经网络的全部表达能力。

Jun, 2019