MAST：模型无关稀疏化训练

Nov, 2023

MAST: Model-Agnostic Sparsified Training

Yury Demidovich, Grigory Malinovsky, Egor Shulgin, Peter Richtárik

TL;DR引入了一种新的优化问题形式，与传统的最小化机器学习模型损失的黑盒函数的方式不同。通过明确地纳入最初预训练模型和随机草图运算符，允许在训练过程中对模型和梯度进行稀疏化。本研究提出的目标函数具有深刻的性质，并强调其与标准算法的联系。同时，还介绍了几种适应新问题形式的随机梯度下降（SGD）方法的变种，包括具有一般抽样的 SGD、分布式版本和具有方差减小技术的 SGD。通过这种面向稀疏化的优化方法，实现了更紧凑的收敛速度和放松了假设，填补了理论原则与实际应用之间的差距，涵盖了 Dropout 和稀疏训练等几种重要技术。该研究为通过稀疏化感知的优化方法增强对模型训练的理论理解提供了有希望的机会。

Abstract

We introduce a novel optimization problem formulation that departs from the conventional way of minimizing machine learning model loss as a black-box function. Unlike traditional formulations, the proposed approa

optimization problem formulation machine learning model loss sparsification stochastic gradient descent theoretical understanding

发现论文，激发创造

通信高效分布式优化的梯度稀疏化

通过减少信息交换的通信成本，提出了使用凸优化公式的随机梯度编码方法，该方法可以在多台机器上有效地解决大规模机器学习中的瓶颈问题，同时经过正则化逻辑回归，支持向量机和卷积神经网络的实验验证了该方法的有效性。

Oct, 2017

始终稀疏训练：引导随机探索下的连接增长

现代人工神经网络的过多计算需求为可以运行它们的机器带来了限制。我们提出一种高效的、始终稀疏训练算法，具有一流的大规模和更稀疏模型的线性时间复杂度，并通过引导随机探索算法改善了先前稀疏训练方法的准确性。

Jan, 2024

稀疏梯度下降法的收敛性

本文研究了基于梯度稀疏化的分布式深度神经网络的训练方法，证明了在一定的解析条件下，采用基于梯度幅值优先选择梯度部分更新方法具有收敛性，并验证了该方法的有效性并探究了其收敛条件。

Sep, 2018

准确神经网络剪枝需要重思稀疏优化

使用标准的计算机视觉和自然语言处理稀疏基准测试，探讨高稀疏性对模型训练的影响，提供了一种解决有关稀疏训练困难的新方法，并在高稀疏性环境下实现了在视觉模型和语言模型上最先进的结果。

Aug, 2023

通过刺激训练增强稀疏化

基于稀疏化剪枝的研究中，我们提出了一种增强稀疏化范式的结构化剪枝框架 (STP)，通过自蒸馏的方式维持被剪枝权重的大小并增强保留权重的表现力。此外，为了找到最优的剪枝网络架构，我们采用了多维架构空间和知识蒸馏引导的探索策略，同时使用子网变异扩展技术来减小蒸馏的容量差距。大量实验证明了 STP 的有效性，特别是在极度激进的剪枝情况下，例如在 ImageNet 上对 ResNet-50 进行剪枝，保持 95.11% 的 Top-1 准确率（从 76.15% 减少 85% 的浮点操作）。

Mar, 2024

截断梯度稀疏在线学习

这篇论文提出了一种新方法，称为截断梯度 (truncated gradient)，可以在凸损失函数的在线学习算法中诱导稀疏性，该方法具有连续控制稀疏化程度的参数，类似于 $L_1$ 正则化方法，理论上可以证明小的稀疏化率仅会导致额外的小代价，并且在实践中取得了良好的效果。

Jun, 2008

带记忆的稀疏化随机梯度下降

对于分布式算法，通过对随机梯度下降（SGD）的压缩（如 top-k 或 random-k）等技术进行分析，发现它在进行误差补偿的情况下，能够实现与传统 SGD 相同的收敛速度，降低数据通信量达到更好的分布式可扩展性。

Sep, 2018

AUTOSPARSE: 深度神经网络稀疏训练自动化

本文提出通过渐进式变化策略的梯度退火（gradient annealing，GA）以及最新的可学习剪枝方法相结合的自动稀疏训练算法 AutoSparse，在 ImageNet-1K 数据集上表现优异，80% 稀疏 ResNet50 的训练和推断 FLOPS 减少分别达到 2 倍和 7 倍。与当前最好的稀疏到稀疏（sparse-to-sparse）方法 MEST 的表现相似，但使用的训练和推理 FLOPS 分别多 12％和 50％不到。

Apr, 2023

稀疏深度神经网络训练的多目标优化

深度学习中存在多个冲突的优化准则，本文提出了一种多目标优化算法，使用修改后的加权切比雪夫标量化方法来训练深度神经网络 (DNNs)，并通过实验证明了可以在训练过程中自适应地稀疏化模型，而不显著影响其性能。

Aug, 2023

深度神经网络的可微稀疏化

本文提出一种全可微的神经网络稀疏化方法，结合随机梯度下降，可以训练参数为零的稀疏结构和权重。该方法直接适用于现代深度神经网络，对现有模型的修改最小，并为未来的结构学习和模型压缩方法奠定了基础。

Oct, 2019