直通梯度和软阈值是稀疏训练所需的全部吗？

Dec, 2022

直通梯度和软阈值是稀疏训练所需的全部吗？

Are Straight-Through gradients and Soft-Thresholding all you need for Sparse Training?

Antoine Vanderschueren, Christophe De Vleeschouwer

TL;DR采用 ST-3 方法，结合软阈值和直通渐变估计来训练神经网络，可以有效地减少计算复杂性和在单次训练周期内逐渐增加稀疏度率而获得 SoA 结果。

Abstract

Turning the weights to zero when training a neural network helps in reducing the computational complexity at inference. To progressively increase the →

neural network sparsity st-3 soft-thresholding computational complexity

发现论文，激发创造

可学习稀疏度的软阈值权重重参数化

本研究提出了一种基于软阈值重参数化（STR）的方法，该方法通过学习修剪阈值实现平滑稀疏（非均匀稀疏），从而获得非均匀稀疏预算，进而在 CNNs 中实现非结构化稀疏，在 ImageNet-1K 上实现了最先进的准确性，并且可以用于在 RNNs 中引出低秩（结构稀疏）。

Feb, 2020

无 STE 学习低精度神经网络

该论文提出了一种 alpha-blending 替代 Straight-Through Estimator 的方法用于量化神经网络，该方法逐步将模型从全精度转化为低精度并在 CIFAR10 和 ImageNet 数据集上表现出更好的结果。

Mar, 2019

AUTOSPARSE: 深度神经网络稀疏训练自动化

本文提出通过渐进式变化策略的梯度退火（gradient annealing，GA）以及最新的可学习剪枝方法相结合的自动稀疏训练算法 AutoSparse，在 ImageNet-1K 数据集上表现优异，80% 稀疏 ResNet50 的训练和推断 FLOPS 减少分别达到 2 倍和 7 倍。与当前最好的稀疏到稀疏（sparse-to-sparse）方法 MEST 的表现相似，但使用的训练和推理 FLOPS 分别多 12％和 50％不到。

Apr, 2023

前向和后向传播稀疏化提高神经网络训练效率

该研究提出了高效的稀疏训练方法，通过引入连续性问题，将优化过程分为权重更新和结构参数更新两个步骤，前者可利用稀疏结构实现，后者通过方差减少策略梯度估计器而获得全面稀疏训练，维度之间的联系局限在两个步骤中，展示了远远超过之前方法的训练加速效果。

Nov, 2021

理解直通估计在训练激活量化神经网络中的作用

通过学习使用 STE 实现反向传播算法中的梯度下降，通过正确选择 STE 并验证其梯度与总体梯度正相关，进而解决了搜索负方向最小化训练损失的问题。研究还比较了不同 STE 算法对 CIFAR-10 数据集的训练结果和稳定性。

Mar, 2019

随机迭代硬阈值法用于基于图的稀疏优化

本文介绍了一种基于随机梯度下降法的方法，用于解决图结构稀疏约束问题，并证明该算法具有与批量学习设置中相当竞争的线性收敛率。

May, 2019

始终稀疏训练：引导随机探索下的连接增长

现代人工神经网络的过多计算需求为可以运行它们的机器带来了限制。我们提出一种高效的、始终稀疏训练算法，具有一流的大规模和更稀疏模型的线性时间复杂度，并通过引导随机探索算法改善了先前稀疏训练方法的准确性。

Jan, 2024

自私稀疏循环神经网络训练

本文提出了一种可以在单次训练中固定参数数量的内在稀疏 RNNs 训练方法，利用非均匀分配细胞门的方法实现更好的正则化，并通过一种新型的平均随机梯度优化器 SNT-ASGD 提高了训练性能，在 Penn TreeBank 和 Wikitext-2 数据集上实现了优于 dense-to-sparse 方法的最新稀疏训练结果。

Jan, 2021

稀疏权重激活训练

本文提出了一种名为 Sparse Weight Activation Training (SWAT) 的算法，相比传统训练更加节省计算和内存资源，在保证验证准确率的同时可以在使用最新的 CNN 架构和数据集进行训练时具有很高的速度和内存节省率。

Jan, 2020

Transformer 中鲁棒性 N:M 稀疏训练的渐进梯度流

现有稀疏训练方法在高稀疏度区域存在模型质量下降的问题，本文通过限制梯度传递以减少梯度噪声，提供了一种改善高稀疏度区域视觉和语言模型性能的方法，并针对模型精度和训练计算成本的权衡问题进行了评估。

Feb, 2024