稀疏最大更新参数化：一种稀疏训练动态的整体方法

May, 2024

稀疏最大更新参数化：一种稀疏训练动态的整体方法

Sparse maximal update parameterization: A holistic approach to sparse training dynamics

Nolan Dey, Shane Bergsma, Joel Hestness

TL;DR通过重新参数化超参数，SμPar 可以在不同的稀疏度级别和模型宽度变化时实现相同的最优超参数值，以解决稀疏神经网络的挑战，并在大规模语言建模中实现高达 8.2％的损失改进。

Abstract

Several challenges make it difficult for sparse neural networks to compete with dense models. First, setting a large fraction of weights to zero impairs forward and gradient signal propagation. Second, sparse stu

sparse neural networks sparsity levels forward and gradient signal propagation hyperparameters sμpar

发现论文，激发创造

动态稀疏重参数化实现深度卷积神经网络的参数高效训练

介绍了一种新的动态稀疏重参数化方法，能够更有效地训练深度卷积神经网络，在固定的参数预算下达到最佳准确率，并发现在训练过程中探索结构自由度比增加额外的参数对网络性能的提升更为有效。

Feb, 2019

大规模的真正稀疏神经网络

本文介绍了一种针对稀疏神经网络的并行训练算法、非可训练参数激活函数、隐藏神经元重要性指标等三个新型贡献，该方法能够最大程度地利用稀疏神经网络的潜力。实验结果表明，这种方法具有最前沿的性能，同时为实现环保型人工智能奠定了基础。

Feb, 2021

针对大语言模型微调的参数高效稀疏化

该研究提出了参数有效的稀疏训练 (PST) 方法，通过减少可训练参数的数量以使得稀疏训练资源有效并具有参数效益，从而解决了稀疏训练时计算开销和内存占用的问题，在 BERT，RoBERTa 和 GPT-2 等网络上得到了有效验证。

May, 2022

前向和后向传播稀疏化提高神经网络训练效率

该研究提出了高效的稀疏训练方法，通过引入连续性问题，将优化过程分为权重更新和结构参数更新两个步骤，前者可利用稀疏结构实现，后者通过方差减少策略梯度估计器而获得全面稀疏训练，维度之间的联系局限在两个步骤中，展示了远远超过之前方法的训练加速效果。

Nov, 2021

通过自适应稀疏连接提高深度学习的泛化能力

本文中，我们提出了一种基于稀疏连接的神经网络模型，使用自适应稀疏连接和纯化神经元的方法进行训练，并将其应用于 MLP 模型上，测试结果表明，该方法在 15 个数据集上表现出了竞争性的分类和泛化性能。

Jun, 2019

更多探索的动态稀疏训练

本文提出了基于动态稀疏训练的稀疏连接性搜索问题的开发和探索获取函数，旨在使稀疏训练达到更高的准确性和更高的稀疏度，实验结果表明，相较于目前最先进的稀疏训练方法，在多项深度学习任务中，本文所提出的方法额外具有更高的准确性。

Nov, 2022

Powerpropagation：一种稀疏引导的权重重新参数化

本文介绍了 Powerpropagation 方法，它是一种针对神经网络权重参数化的方法，使用梯度下降时可使权重更新呈现 “富者越富” 的动态，从而产生稀疏模型，在模型性能相似的情况下，分布在零点处的密度提高，使得更多参数可被安全地剪枝，并在两种不同的环境下都表现出优越性。

Oct, 2021

准确神经网络剪枝需要重思稀疏优化

使用标准的计算机视觉和自然语言处理稀疏基准测试，探讨高稀疏性对模型训练的影响，提供了一种解决有关稀疏训练困难的新方法，并在高稀疏性环境下实现了在视觉模型和语言模型上最先进的结果。

Aug, 2023

数据并行和稀疏性对神经网络训练的影响理解

该论文研究了神经网络训练中的数据并行和稀疏性等因素及其对训练的影响，发现批次大小与训练次数之间存在一种普遍的缩放趋势，并通过理论分析阐明了这种现象，为神经网络训练提供了更好的解释。

Mar, 2020

利用稀疏性在剪枝神经网络中优化大模型训练

本文提出利用稀疏子网络以优化内存利用和通信的方法来加速深度学习中的数据和层间并行算法，并将其融入 AxoNN，实验证明在 512 NVIDIA V100 GPU 上，相比于 AxoNN，DeepSpeed-3D 和 Sputnik，优化后的模型内存消耗减少了 74％，总通信时间减少了 40％，从而提供了 34％的总体加速。

Feb, 2023