具有条件计算的神经网络的记忆容量

ICLRMar, 2023

具有条件计算的神经网络的记忆容量

Memorization Capacity of Neural Networks with Conditional Computation

Erdem Koyuncu

TL;DR研究神经条件计算的基本限制和记忆能力，展示条件 ReLU 网络可以用更少的算术操作完成相同任务，还介绍了一种将无条件网络合成为条件网络的有效方法。

Abstract

Many empirical studies have demonstrated the performance benefits of conditional computation in neural networks, including reduced inference time and power consumption. We study the fundamental limits of neural c

conditional computation neural networks memorization capacity relu networks computationally-efficient

发现论文，激发创造

关于 ReLU 神经网络的最佳记忆能力

本研究探讨了前向 ReLU 神经网络的记忆能力，发现使用大约 O (sqrt (N)) 个参数可以记忆任何满足一定可分性假设的 N 个点。我们还提出了一个更一般化的构造，可以使用更少的大约 N/L 个参数记忆 N 个样本，其中 1≤L≤sqrt (N)。我们的构造使用具有大位复杂度的权重，证明了这种大位复杂度对于用一个次线性数量参数进行记忆既是必要的又是充分的。

Oct, 2021

小型 ReLU 网络具有强大的记忆能力：记忆容量的严密分析

研究了 ReLU 网络的有限样本表达能力，证明了 3 层 ReLU 网络可以通过利用深度，并需要大约根号 N 个节点即可完美记忆大多数 N 个数据点，并证明大约根号 N 个节点是记忆 N 个数据点的必要和充分条件，同时证明当 W = Omega（N）时，L 层网络的带权参数可以记忆 N 个数据点。在全局位置假设下分析了负残差网络的记忆能力，并研究了随机梯度下降的动力学，证明了当在经验风险的记忆全局最小值附近初始化时，SGD 可以很快找到风险更小的附近点。

Oct, 2018

深度学习中条件计算的容量与计算比例呈指数级增长

该论文提出了一种新颖的神经网络权重矩阵参数化方法，通过激活一些参数和计算 “按需” 地在每个样本上进行，从而可以提高参数数量与计算之间的比率，以提高深度神经网络的泛化能力，并且通过树状结构的参数化方式，进一步控制过拟合。

Jun, 2014

具有阈值和 ReLU 激活函数的神经网络的记忆容量

本文探究神经网络模型，证明了具有 sigmoid 或 ReLU 激活函数的过度参数化的模型在训练数据超过一定数量后，具有百分之百的记忆能力。

Jan, 2020

双层神经网络在记忆中的网络尺寸和权重尺寸

使用复合的神经元重组，提出一种新的针对 ReLU 网络的训练方法，使得仅需使用数目较少的神经元就可以进行近似记忆，并且权重大小接近最优。

Jun, 2020

神经网络中的条件计算以加速模型

本研究利用强化学习作为优化条件计算策略的工具，通过使用策略梯度算法，以求得在计算速度上做到简约化激活且保持预测准确性的最优策略，并提出了鼓励样本多样化的正则化机制以实现机器学习模型在计算速度上的加速。

Nov, 2015

深度神经网络中条件前馈计算的低秩近似

本文研究深度神经网络中的可扩展性问题，提出了一种条件计算的方法，利用门控单元来确定节点何时进行计算，通过将权重矩阵分解成低秩逼近，能够有效地获得非线性激活前的正负号，在使用 ReLU 激活函数时，能够跳过一些节点的计算，加速稀疏神经网络的运行。实验结果显示，这种方法在 MNIST 和 SVHN 数据集上的性能稳健，对于条件计算过程引入的误差具有较好的鲁棒性。

Dec, 2013

具有平滑激活函数的两层神经网络的内存容量

通过计算雅可比矩阵中涉及亏格阵幂和 Khati-Rao 乘积的矩阵的秩，我们确定了具有 m 个隐藏神经元和输入维度 d（即，md+m 个可训练参数）的双层神经网络的记忆容量下界为 md/2，并以大约 2 倍的优势进行了最优性分析。

Aug, 2023

ReLU 与 Step 网络在浮点运算下的表现能力

利用浮点数和操作，研究了神经网络的表达能力，得出了使用二进制阈值单元或 ReLU 的神经网络可以记忆任何有限的输入 / 输出对并且可以在误差范围内近似任何连续函数的结论。

Jan, 2024

ReLU 浅层神经网络的逼近速度

ReLU shallow neural networks can uniformly approximate functions from the H"older space with rates close to the optimal one in high dimensions.

Jul, 2023