大规模的真正稀疏神经网络

Feb, 2021

Truly Sparse Neural Networks at Scale

Selima Curci, Decebal Constantin Mocanu, Mykola Pechenizkiyi

TL;DR本文介绍了一种针对稀疏神经网络的并行训练算法、非可训练参数激活函数、隐藏神经元重要性指标等三个新型贡献，该方法能够最大程度地利用稀疏神经网络的潜力。实验结果表明，这种方法具有最前沿的性能，同时为实现环保型人工智能奠定了基础。

Abstract

Recently, sparse training methods have started to be established as a de facto approach for training and inference efficiency in artificial neural networks. Yet, this →

sparse training neural networks efficiency parallel training algorithm environmentally friendly

发现论文，激发创造

稀疏神经网络训练

本研究介绍了一种使用稀疏计算的神经网络训练和构建方法，通过引入额外的门变量来执行参数选择，并在小型和大型网络上进行实验验证，证明了我们的方法在稀疏神经网络模型的压缩方面取得了最先进的结果。

Nov, 2016

使用任何掩码更好地训练您的稀疏神经网络

本研究提出了一种新的稀疏训练技术，使用 “幽灵” 神经元和跳跃连接等训练初始策略来提高性能和稳定性，适用于各种稀疏掩蔽方法下的深度学习网络

Jun, 2022

准确神经网络剪枝需要重思稀疏优化

使用标准的计算机视觉和自然语言处理稀疏基准测试，探讨高稀疏性对模型训练的影响，提供了一种解决有关稀疏训练困难的新方法，并在高稀疏性环境下实现了在视觉模型和语言模型上最先进的结果。

Aug, 2023

深度学习中的稀疏性：剪枝和生长用于神经网络的高效推理和训练

本文系统梳理了当前深度学习领域中关于稀疏性技术的研究现状，并提供了丰富的稀疏性实现、训练策略及其数学方法等方面的教程，指明如何通过利用稀疏性以达到优化神经网络结构和提高性能的目的。

Jan, 2021

通过自适应稀疏连接提高深度学习的泛化能力

本文中，我们提出了一种基于稀疏连接的神经网络模型，使用自适应稀疏连接和纯化神经元的方法进行训练，并将其应用于 MLP 模型上，测试结果表明，该方法在 15 个数据集上表现出了竞争性的分类和泛化性能。

Jun, 2019

动态稀疏训练：通过可训练掩码层从头开始找出高效的稀疏网络

本文介绍了一种新的神经网络剪枝算法 ——Dynamic Sparse Training，它可以通过可训练的剪枝门限实现优化神经网络参数和结构，并通过反向传播动态地进行精细化调整。利用这一算法，我们可以轻松训练出效果优秀的稀疏神经网络。与其他稀疏训练算法相比，Dynamic Sparse Training 在多个网络架构上取得了业界领先水平。此外，我们还发现了传统三阶段剪枝算法的潜在问题，为更紧凑的神经网络架构设计提供了理论指导。

May, 2020

始终稀疏训练：引导随机探索下的连接增长

现代人工神经网络的过多计算需求为可以运行它们的机器带来了限制。我们提出一种高效的、始终稀疏训练算法，具有一流的大规模和更稀疏模型的线性时间复杂度，并通过引导随机探索算法改善了先前稀疏训练方法的准确性。

Jan, 2024

自私稀疏循环神经网络训练

本文提出了一种可以在单次训练中固定参数数量的内在稀疏 RNNs 训练方法，利用非均匀分配细胞门的方法实现更好的正则化，并通过一种新型的平均随机梯度优化器 SNT-ASGD 提高了训练性能，在 Penn TreeBank 和 Wikitext-2 数据集上实现了优于 dense-to-sparse 方法的最新稀疏训练结果。

Jan, 2021

利用稀疏性在剪枝神经网络中优化大模型训练

本文提出利用稀疏子网络以优化内存利用和通信的方法来加速深度学习中的数据和层间并行算法，并将其融入 AxoNN，实验证明在 512 NVIDIA V100 GPU 上，相比于 AxoNN，DeepSpeed-3D 和 Sputnik，优化后的模型内存消耗减少了 74％，总通信时间减少了 40％，从而提供了 34％的总体加速。

Feb, 2023

在密集硬件上快速训练稀疏图神经网络

本研究通过优化稀疏矩阵算法，使用面向固定大小数据的平台扩展了稀疏图神经网络模型，使用 512 核 TPUv2 Pod 仅用 13 分钟训练，而原始训练需要近一天。

Jun, 2019