激活稀疏性的理论解释:通过平坦极小值和对抗性鲁棒性
许多成功的神经网络结构中的核心组件是一个具有非线性激活函数的两个全连接层的 MLP 块。我们在本文中对展示出激活稀疏性的 MLP 层的 PAC 可学习性进行了形式化研究,并呈现了多种实验结果,表明这类函数相对于非稀疏的对应物具有计算和统计上的优势。我们希望对 “激活稀疏” 的网络有更好的理论认识,以便能够在实践中利用激活稀疏性。
Jun, 2024
本研究论文探讨解释了前向传播算法中观察到的高稀疏现象,并提出了两个定理来预测单个数据点的激活稀疏性变化,该理论与在 MNIST 数据集上进行的实验结果相吻合。
Nov, 2023
通过剪枝层来诱导和利用稀疏激活是提高深度网络计算效率的一种有前途的方法,本论文使用大尺度高斯过程极限分析了随机初始化时诱导隐藏层稀疏性的非线性激活函数,证明了一种先前未报告的培训不稳定性,并表明通过剪枝激活函数的幅度,可以克服这种不稳定性,理论验证和数值实验表明,这种剪枝激活函数能够在训练和测试时保持接近完全准确度的同时达到高达 85%的稀疏度。
Feb, 2024
本文研究了深度神经网络的泛化能力和节点稀疏性之间的关系,通过开发一个基于减小的有效模型大小的框架来证明了稀疏和泛化之间的基本权衡关系,并提出了一种新的方法来分析这个问题。
Jul, 2023
研究表明,随机梯度下降有一个偏好于平滑最小值的隐含偏差。 本文研究发现,在具有二次损失的线性神经网络训练中,线性 ResNets 的零初始化必然收敛于所有最小值中最平滑的最小值,这些最小值对应着接近平衡网络。另外,相邻层的权重矩阵在平坦的极小值解中相互耦合,形成了从输入到输出的明显路径,该路径只用于体验端到端最大增益的信号。
Feb, 2020
该论文研究在深度学习中如何使用 N:M 稀疏性技术来压缩数据并加速训练,并提出了一种最优的基于张量的方法来剪裁神经梯度,从而达到训练加速的效果。
Mar, 2022
研究表明,使用 Batch Normalization 和 ReLU 激活的卷积神经网络,在采用适应性梯度下降和 L2 正则化或权重衰减训练的情况下,会出现滤波器级别的稀疏性,这种隐式的稀疏性可以利用以达到神经网络加速的效果。
Nov, 2018
通过对参数进行稀疏化,结合稀疏激活在递归神经网络中的相乘作用,实现了对神经网络计算成本高效率的优化,可以应用于神经形态计算设备上,同时不牺牲任务性能。
Nov, 2023