神奇的权重及其搜索方法:如何在动态稀疏训练中进行裁剪
本研究提出了一种基于 DST 方法的 N:M 结构稀疏化学习方案,其具有较高的稀疏度并支持常见的硬件加速方式,在理论和实践中都表现出较好的泛化性能与较低的推理时间。
May, 2023
本文介绍了一种新的神经网络剪枝算法 ——Dynamic Sparse Training,它可以通过可训练的剪枝门限实现优化神经网络参数和结构,并通过反向传播动态地进行精细化调整。利用这一算法,我们可以轻松训练出效果优秀的稀疏神经网络。与其他稀疏训练算法相比,Dynamic Sparse Training 在多个网络架构上取得了业界领先水平。此外,我们还发现了传统三阶段剪枝算法的潜在问题,为更紧凑的神经网络架构设计提供了理论指导。
May, 2020
连续学习是指智能系统在尽可能少的计算开销下,从数据流中顺序获取和保留知识的能力。本研究通过对 Dynamic Sparse Training (DST) 的不同组成部分在连续学习范式下的影响进行了首次实证研究,以填补重要的研究空白并为连续学习中 DST 的最佳配置提供清晰的指导。通过在著名的 CIFAR100 和 miniImageNet 基准测试数据集上进行全面的研究,研究人员发现在低稀疏度水平下,Erdos-Renyi Kernel (ERK) 初始化能更有效地利用主干网络并实现任务增量的有效学习,而在高稀疏度水平下,均匀初始化展现出更可靠和稳健的性能。对于增长策略,性能取决于定义的初始化策略和稀疏度程度。最后,DST 组成部分内的适应性是提升连续学习效果的有希望的方法。
Aug, 2023
基于稀疏化剪枝的研究中,我们提出了一种增强稀疏化范式的结构化剪枝框架 (STP),通过自蒸馏的方式维持被剪枝权重的大小并增强保留权重的表现力。此外,为了找到最优的剪枝网络架构,我们采用了多维架构空间和知识蒸馏引导的探索策略,同时使用子网变异扩展技术来减小蒸馏的容量差距。大量实验证明了 STP 的有效性,特别是在极度激进的剪枝情况下,例如在 ImageNet 上对 ResNet-50 进行剪枝,保持 95.11% 的 Top-1 准确率(从 76.15% 减少 85% 的浮点操作)。
Mar, 2024
本文提出 Channel-aware dynamic sparse (Chase) 方法:将 unstructured dynamic sparsity 转变为 GPU-friendly channel-level sparsity 加速 inference,通过逐渐去除 biased parameter reallocation across channels,不损失准确率地实现了 1.7 X inference throughput speedup on common GPU devices with ResNet-50 on ImageNet。
May, 2023
本文提出了一种可以在单次训练中固定参数数量的内在稀疏 RNNs 训练方法,利用非均匀分配细胞门的方法实现更好的正则化,并通过一种新型的平均随机梯度优化器 SNT-ASGD 提高了训练性能,在 Penn TreeBank 和 Wikitext-2 数据集上实现了优于 dense-to-sparse 方法的最新稀疏训练结果。
Jan, 2021
基于 Dynamic Sparse No Training (DSnoT) 的训练无关的微调方法,能够有效地提高稀疏语言模型的性能,并开拓了将稀疏性应用于大型语言模型的潜力。
Oct, 2023
提出一种新的模型压缩方法,通过允许稀疏模式的动态分配和合理使用反馈信号使得模型可以在单一训练过程中生成一个高性能的稀疏模型,且其性能超越了现有的所有修剪方案生成的模型,在 CIFAR-10 和 ImageNet 数据集上进行验证。
Jun, 2020
通过提出 DSD 训练流程,即 Dense-Sparse-Dense(DSD)的训练方法,对深度神经网络进行正则化,以实现更好的优化性能;实验证明,DSD 训练可以提高各种神经网络模型(如 CNN、RNN 和 LSTM)在图像分类、标题生成和语音识别等任务中的性能,并且可以在不改变网络架构或引入任何推理开销的情况下使用。
Jul, 2016