深度神经网络的稀疏感知泛化理论
研究稀疏神经活动如何影响具有修正线性单元激活的神经网络的一般化性能,提出神经网络高斯过程(NNGP)核,观察到在浅层时更稀疏的网络在各种数据集上优于非稀疏网络,并通过扩展现有的核 - 岭回归的一般化误差理论来验证此观察结果。
May, 2023
本文中,我们提出了一种基于稀疏连接的神经网络模型,使用自适应稀疏连接和纯化神经元的方法进行训练,并将其应用于 MLP 模型上,测试结果表明,该方法在 15 个数据集上表现出了竞争性的分类和泛化性能。
Jun, 2019
发展用于稀疏深度学习的统计保证来进一步增加我们对神经网络潜力和局限性的理解,这一理论考虑了不同类型的稀疏性,如连通性,结点性等,并覆盖了先前理论忽略的重要方面,如多重输出和正则化。
Dec, 2022
研究表明,使用 Batch Normalization 和 ReLU 激活的卷积神经网络,在采用适应性梯度下降和 L2 正则化或权重衰减训练的情况下,会出现滤波器级别的稀疏性,这种隐式的稀疏性可以利用以达到神经网络加速的效果。
Nov, 2018
本文系统梳理了当前深度学习领域中关于稀疏性技术的研究现状,并提供了丰富的稀疏性实现、训练策略及其数学方法等方面的教程,指明如何通过利用稀疏性以达到优化神经网络结构和提高性能的目的。
Jan, 2021
该研究通过神经切向核(NTK)模式下的梯度下降探讨了训练一层过度参数化的 ReLU 网络,其中网络的偏置被初始化为某个常量而不是零。该初始化的诱人好处是神经网络将可以在整个训练过程中保持稀疏激活,从而实现快速训练。结果表明,在稀疏化后,网络可以实现与密集网络一样快的收敛速度。其次,提供了宽度稀疏性的相关性,给出了一个稀疏性相关的 Rademacher 复杂度和泛化性能界限。最后,研究了极限 NTK 的最小特征值,发现可以使用可训练偏置来提高推广性。
Jan, 2023
本文指出,关于促进稀疏性的更强大的贝叶斯算法具有类似于长短期记忆 (LSTM) 网络或先前设计用于序列预测的替代门控反馈网络的结构,从而导致了一种新的稀疏估计系统,当授予训练数据时,可以在其他算法失败的方案中高效地估计最优解,包括在实际方向 - 到达 (DOA) 和三维几何恢复问题中。
Jun, 2017
该研究通过系统实验和理论构建发现,传统方法很难解释为什么大型神经网络的泛化性能良好,即使加入正则化仍然不会改变随机标记训练数据的状态,因为只要参数数量超过数据点数量,简单的两层神经网络就能实现完美的有限样本表达能力。
Nov, 2016
本文提出两种新颖的在对抗训练期间注入适当稀疏形式的方法,即:通过利用最近的彩票假设的结果识别早期训练中出现的关键稀疏子网络来实现静态稀疏,以及通过在训练期间使稀疏子网络自适应调整其连接模式(同时保持相同的稀疏比率)来实现动态稀疏,并发现这两种新方法都可以显著缩减稳健泛化差距和减轻过度拟合,同时大大减少训练和推理的 FLOPs,实验证明此方法在各种数据集上有着显著作用,包括 CIFAR-10/100 和 Tiny-ImageNet。
Feb, 2022
通过剪枝层来诱导和利用稀疏激活是提高深度网络计算效率的一种有前途的方法,本论文使用大尺度高斯过程极限分析了随机初始化时诱导隐藏层稀疏性的非线性激活函数,证明了一种先前未报告的培训不稳定性,并表明通过剪枝激活函数的幅度,可以克服这种不稳定性,理论验证和数值实验表明,这种剪枝激活函数能够在训练和测试时保持接近完全准确度的同时达到高达 85%的稀疏度。
Feb, 2024