激活稀疏性的理论解释:通过平坦极小值和对抗性鲁棒性
本研究提出变量稀疏问题,并通过实验证明了零值归零处理方法在处理缺失数据时性能不佳,提出了一种名为 Sparsity Normalization 的技术,该技术直接解决了变量稀疏问题,并在多个基准数据集上得到了实验验证。
Jun, 2019
本文系统梳理了当前深度学习领域中关于稀疏性技术的研究现状,并提供了丰富的稀疏性实现、训练策略及其数学方法等方面的教程,指明如何通过利用稀疏性以达到优化神经网络结构和提高性能的目的。
Jan, 2021
本文提出两种新颖的在对抗训练期间注入适当稀疏形式的方法,即:通过利用最近的彩票假设的结果识别早期训练中出现的关键稀疏子网络来实现静态稀疏,以及通过在训练期间使稀疏子网络自适应调整其连接模式(同时保持相同的稀疏比率)来实现动态稀疏,并发现这两种新方法都可以显著缩减稳健泛化差距和减轻过度拟合,同时大大减少训练和推理的FLOPs,实验证明此方法在各种数据集上有着显著作用,包括CIFAR-10/100和Tiny-ImageNet。
Feb, 2022
通过在计算通用矩阵乘法(GEMM)时考虑激活的最终位置,我们设计了一种稀疏训练过程,以诱导可利用的半结构化激活稀疏性,并在图像分类和目标检测任务中对其进行了广泛评估,结果显示在 ImageNet 数据集上,我们的方法在 ResNet18 模型上实现了 1.25 倍的加速,并仅有 1.1% 的最小精度降低;另外,与先进的结构化剪枝方法相结合,得到的模型在延迟和准确性之间取得了很好的平衡,优于仅采用结构化剪枝技术的模型。
Sep, 2023
通过剪枝层来诱导和利用稀疏激活是提高深度网络计算效率的一种有前途的方法,本论文使用大尺度高斯过程极限分析了随机初始化时诱导隐藏层稀疏性的非线性激活函数,证明了一种先前未报告的培训不稳定性,并表明通过剪枝激活函数的幅度,可以克服这种不稳定性,理论验证和数值实验表明,这种剪枝激活函数能够在训练和测试时保持接近完全准确度的同时达到高达85%的稀疏度。
Feb, 2024
本研究论文介绍了一种基于转换的l1正则化方法来诱导激活图的稀疏性,以改善激活稀疏诱导领域的研究。同时,本方法与传统修剪结合,构成了双稀疏训练框架。实验结果表明,该方法在大多数模型和相应数据集上可以实现超过20%的激活图稀疏度提升,同时不影响准确性。另外,双稀疏训练框架能够大大减少计算负载并降低运行时所需的存储。
May, 2024
许多成功的神经网络结构中的核心组件是一个具有非线性激活函数的两个全连接层的MLP块。我们在本文中对展示出激活稀疏性的MLP层的PAC可学习性进行了形式化研究,并呈现了多种实验结果,表明这类函数相对于非稀疏的对应物具有计算和统计上的优势。我们希望对“激活稀疏”的网络有更好的理论认识,以便能够在实践中利用激活稀疏性。
Jun, 2024
对于在ReLU变换器中的MLPs,先前的研究表明它们呈现出很高的稀疏性,其中许多激活值为零。本文在此基础上进一步探索了训练过程中令牌级稀疏性的演化以及它与序列或批次的更广泛稀疏模式之间的关系,明确指出小型变换器中的不同层在这两个方面都呈现出明显的层特异性模式。特别地,我们证明了网络的第一层和最后一层与稀疏性具有独特且在许多方面相反的关系,并探讨了在模型不同深度学习中所学到的特征表达结构的含义。此外,我们还探讨了ReLU维度“关闭”的现象,并展示了证据表明“神经元死亡”主要受训练动态驱动,而不仅仅是由于离群值的随机或意外产生。
Jul, 2024