具有条件计算的神经网络的记忆容量
本研究探讨了前向 ReLU 神经网络的记忆能力,发现使用大约 O (sqrt (N)) 个参数可以记忆任何满足一定可分性假设的 N 个点。我们还提出了一个更一般化的构造,可以使用更少的大约 N/L 个参数记忆 N 个样本,其中 1≤L≤sqrt (N)。我们的构造使用具有大位复杂度的权重,证明了这种大位复杂度对于用一个次线性数量参数进行记忆既是必要的又是充分的。
Oct, 2021
研究了 ReLU 网络的有限样本表达能力,证明了 3 层 ReLU 网络可以通过利用深度,并需要大约根号 N 个节点即可完美记忆大多数 N 个数据点,并证明大约根号 N 个节点是记忆 N 个数据点的必要和充分条件,同时证明当 W = Omega(N)时,L 层网络的带权参数可以记忆 N 个数据点。在全局位置假设下分析了负残差网络的记忆能力,并研究了随机梯度下降的动力学,证明了当在经验风险的记忆全局最小值附近初始化时,SGD 可以很快找到风险更小的附近点。
Oct, 2018
该论文提出了一种新颖的神经网络权重矩阵参数化方法,通过激活一些参数和计算 “按需” 地在每个样本上进行,从而可以提高参数数量与计算之间的比率,以提高深度神经网络的泛化能力,并且通过树状结构的参数化方式,进一步控制过拟合。
Jun, 2014
本文探究神经网络模型,证明了具有 sigmoid 或 ReLU 激活函数的过度参数化的模型在训练数据超过一定数量后,具有百分之百的记忆能力。
Jan, 2020
本研究利用强化学习作为优化条件计算策略的工具,通过使用策略梯度算法,以求得在计算速度上做到简约化激活且保持预测准确性的最优策略,并提出了鼓励样本多样化的正则化机制以实现机器学习模型在计算速度上的加速。
Nov, 2015
本文研究深度神经网络中的可扩展性问题,提出了一种条件计算的方法,利用门控单元来确定节点何时进行计算,通过将权重矩阵分解成低秩逼近,能够有效地获得非线性激活前的正负号,在使用 ReLU 激活函数时,能够跳过一些节点的计算,加速稀疏神经网络的运行。实验结果显示,这种方法在 MNIST 和 SVHN 数据集上的性能稳健,对于条件计算过程引入的误差具有较好的鲁棒性。
Dec, 2013
通过计算雅可比矩阵中涉及亏格阵幂和 Khati-Rao 乘积的矩阵的秩,我们确定了具有 m 个隐藏神经元和输入维度 d(即,md+m 个可训练参数)的双层神经网络的记忆容量下界为 md/2,并以大约 2 倍的优势进行了最优性分析。
Aug, 2023
利用浮点数和操作,研究了神经网络的表达能力,得出了使用二进制阈值单元或 ReLU 的神经网络可以记忆任何有限的输入 / 输出对并且可以在误差范围内近似任何连续函数的结论。
Jan, 2024
ReLU shallow neural networks can uniformly approximate functions from the H"older space with rates close to the optimal one in high dimensions.
Jul, 2023