直通梯度和软阈值是稀疏训练所需的全部吗?
本研究提出了一种基于软阈值重参数化(STR)的方法,该方法通过学习修剪阈值实现平滑稀疏(非均匀稀疏),从而获得非均匀稀疏预算,进而在 CNNs 中实现非结构化稀疏,在 ImageNet-1K 上实现了最先进的准确性,并且可以用于在 RNNs 中引出低秩(结构稀疏)。
Feb, 2020
该论文提出了一种 alpha-blending 替代 Straight-Through Estimator 的方法用于量化神经网络,该方法逐步将模型从全精度转化为低精度并在 CIFAR10 和 ImageNet 数据集上表现出更好的结果。
Mar, 2019
本文提出通过渐进式变化策略的梯度退火(gradient annealing,GA)以及最新的可学习剪枝方法相结合的自动稀疏训练算法 AutoSparse,在 ImageNet-1K 数据集上表现优异,80% 稀疏 ResNet50 的训练和推断 FLOPS 减少分别达到 2 倍和 7 倍。与当前最好的稀疏到稀疏(sparse-to-sparse)方法 MEST 的表现相似,但使用的训练和推理 FLOPS 分别多 12%和 50%不到。
Apr, 2023
该研究提出了高效的稀疏训练方法,通过引入连续性问题,将优化过程分为权重更新和结构参数更新两个步骤,前者可利用稀疏结构实现,后者通过方差减少策略梯度估计器而获得全面稀疏训练,维度之间的联系局限在两个步骤中,展示了远远超过之前方法的训练加速效果。
Nov, 2021
通过学习使用 STE 实现反向传播算法中的梯度下降,通过正确选择 STE 并验证其梯度与总体梯度正相关,进而解决了搜索负方向最小化训练损失的问题。研究还比较了不同 STE 算法对 CIFAR-10 数据集的训练结果和稳定性。
Mar, 2019
现代人工神经网络的过多计算需求为可以运行它们的机器带来了限制。我们提出一种高效的、始终稀疏训练算法,具有一流的大规模和更稀疏模型的线性时间复杂度,并通过引导随机探索算法改善了先前稀疏训练方法的准确性。
Jan, 2024
本文提出了一种可以在单次训练中固定参数数量的内在稀疏 RNNs 训练方法,利用非均匀分配细胞门的方法实现更好的正则化,并通过一种新型的平均随机梯度优化器 SNT-ASGD 提高了训练性能,在 Penn TreeBank 和 Wikitext-2 数据集上实现了优于 dense-to-sparse 方法的最新稀疏训练结果。
Jan, 2021
本文提出了一种名为 Sparse Weight Activation Training (SWAT) 的算法,相比传统训练更加节省计算和内存资源,在保证验证准确率的同时可以在使用最新的 CNN 架构和数据集进行训练时具有很高的速度和内存节省率。
Jan, 2020
现有稀疏训练方法在高稀疏度区域存在模型质量下降的问题,本文通过限制梯度传递以减少梯度噪声,提供了一种改善高稀疏度区域视觉和语言模型性能的方法,并针对模型精度和训练计算成本的权衡问题进行了评估。
Feb, 2024