Top-KAST: Top-K Always Sparse 训练

Jun, 2021

Top-KAST: Top-K Always Sparse Training

Siddhant M. Jayakumar, Razvan Pascanu, Jack W. Rae, Simon Osindero, Erich Elsen

TL;DR本文提出了一种名为 Top-KAST 的方法，在训练时保持网络的稀疏性，避免了传统方法在训练时必须实例化 dense 参数或梯度的缺点，实验结果表明，该方法在 ImageNet 基准测试中表现出色，在语言建模领域也有广阔的应用前景。此外，该方法实现简单，易于在现有的机器学习框架中实现，为探索海量模型的潜力提供了可能。

Abstract

sparse neural networks are becoming increasingly important as the field seeks to improve the performance of existing models by scaling them up, while simultaneously trying to reduce power consumption and computational footprint. Unfortunately, most existing methods for inducing perform

sparse neural networks constant sparsity imagenet benchmark language modeling machine learning frameworks

发现论文，激发创造

始终稀疏训练：引导随机探索下的连接增长

现代人工神经网络的过多计算需求为可以运行它们的机器带来了限制。我们提出一种高效的、始终稀疏训练算法，具有一流的大规模和更稀疏模型的线性时间复杂度，并通过引导随机探索算法改善了先前稀疏训练方法的准确性。

Jan, 2024

AUTOSPARSE: 深度神经网络稀疏训练自动化

本文提出通过渐进式变化策略的梯度退火（gradient annealing，GA）以及最新的可学习剪枝方法相结合的自动稀疏训练算法 AutoSparse，在 ImageNet-1K 数据集上表现优异，80% 稀疏 ResNet50 的训练和推断 FLOPS 减少分别达到 2 倍和 7 倍。与当前最好的稀疏到稀疏（sparse-to-sparse）方法 MEST 的表现相似，但使用的训练和推理 FLOPS 分别多 12％和 50％不到。

Apr, 2023

稀疏神经网络训练

本研究介绍了一种使用稀疏计算的神经网络训练和构建方法，通过引入额外的门变量来执行参数选择，并在小型和大型网络上进行实验验证，证明了我们的方法在稀疏神经网络模型的压缩方面取得了最先进的结果。

Nov, 2016

准确神经网络剪枝需要重思稀疏优化

使用标准的计算机视觉和自然语言处理稀疏基准测试，探讨高稀疏性对模型训练的影响，提供了一种解决有关稀疏训练困难的新方法，并在高稀疏性环境下实现了在视觉模型和语言模型上最先进的结果。

Aug, 2023

大规模的真正稀疏神经网络

本文介绍了一种针对稀疏神经网络的并行训练算法、非可训练参数激活函数、隐藏神经元重要性指标等三个新型贡献，该方法能够最大程度地利用稀疏神经网络的潜力。实验结果表明，这种方法具有最前沿的性能，同时为实现环保型人工智能奠定了基础。

Feb, 2021

针对大语言模型微调的参数高效稀疏化

该研究提出了参数有效的稀疏训练 (PST) 方法，通过减少可训练参数的数量以使得稀疏训练资源有效并具有参数效益，从而解决了稀疏训练时计算开销和内存占用的问题，在 BERT，RoBERTa 和 GPT-2 等网络上得到了有效验证。

May, 2022

深度神经网络中稀疏性的状态

本文评估了三种在深度神经网络中引入稀疏性的技术，并对两个大规模的学习任务进行了严格评估，结果表明，简单的幅度剪枝方法可以获得相当或更好的性能，而不能从头开始训练稀疏结构，并强调了建立大规模基准测试的必要性。

Feb, 2019

分布式深度学习的近似最优稀疏全约简算法

本文提出了 O$k$-Top$k$ 的方案，将新型稀疏同时求和算法与去中心化并行随机梯度下降（SGD）optimizer 进行集成，达到与总结所有技术相当的模型精度，与优化密集型和最先进的稀疏同时求和相比，O$k$-Top$k$ 更具扩展性并显着提高了训练吞吐量。

Jan, 2022

稀疏训练中是否需要密集过参数化？时时过参数化

提出一种新的训练深度神经网络的方法 ——In-Time Over-Parameterization（ITOP）与稀疏训练相结合来达到稠密训练的性能，通过实验验证 ITOP 可以达到最先进的性能水平，并在极度稀疏情况下优于基于超参数的稀疏方法和稠密模型。

Feb, 2021

在视觉 Transformer 中追求稀疏性：一次端到端的探索

本文旨在从减小训练存储开销和推理复杂度的角度，提出一种先将 Vision transformers 稀疏化，然后再训练的方法，从而实现一定的加速效果并保持较高的精度。

Jun, 2021