大规模的真正稀疏神经网络
本研究介绍了一种使用稀疏计算的神经网络训练和构建方法,通过引入额外的门变量来执行参数选择,并在小型和大型网络上进行实验验证,证明了我们的方法在稀疏神经网络模型的压缩方面取得了最先进的结果。
Nov, 2016
使用标准的计算机视觉和自然语言处理稀疏基准测试,探讨高稀疏性对模型训练的影响,提供了一种解决有关稀疏训练困难的新方法,并在高稀疏性环境下实现了在视觉模型和语言模型上最先进的结果。
Aug, 2023
本文系统梳理了当前深度学习领域中关于稀疏性技术的研究现状,并提供了丰富的稀疏性实现、训练策略及其数学方法等方面的教程,指明如何通过利用稀疏性以达到优化神经网络结构和提高性能的目的。
Jan, 2021
本文中,我们提出了一种基于稀疏连接的神经网络模型,使用自适应稀疏连接和纯化神经元的方法进行训练,并将其应用于 MLP 模型上,测试结果表明,该方法在 15 个数据集上表现出了竞争性的分类和泛化性能。
Jun, 2019
本文介绍了一种新的神经网络剪枝算法 ——Dynamic Sparse Training,它可以通过可训练的剪枝门限实现优化神经网络参数和结构,并通过反向传播动态地进行精细化调整。利用这一算法,我们可以轻松训练出效果优秀的稀疏神经网络。与其他稀疏训练算法相比,Dynamic Sparse Training 在多个网络架构上取得了业界领先水平。此外,我们还发现了传统三阶段剪枝算法的潜在问题,为更紧凑的神经网络架构设计提供了理论指导。
May, 2020
现代人工神经网络的过多计算需求为可以运行它们的机器带来了限制。我们提出一种高效的、始终稀疏训练算法,具有一流的大规模和更稀疏模型的线性时间复杂度,并通过引导随机探索算法改善了先前稀疏训练方法的准确性。
Jan, 2024
本文提出了一种可以在单次训练中固定参数数量的内在稀疏 RNNs 训练方法,利用非均匀分配细胞门的方法实现更好的正则化,并通过一种新型的平均随机梯度优化器 SNT-ASGD 提高了训练性能,在 Penn TreeBank 和 Wikitext-2 数据集上实现了优于 dense-to-sparse 方法的最新稀疏训练结果。
Jan, 2021
本文提出利用稀疏子网络以优化内存利用和通信的方法来加速深度学习中的数据和层间并行算法,并将其融入 AxoNN,实验证明在 512 NVIDIA V100 GPU 上,相比于 AxoNN,DeepSpeed-3D 和 Sputnik,优化后的模型内存消耗减少了 74%,总通信时间减少了 40%,从而提供了 34%的总体加速。
Feb, 2023
本研究通过优化稀疏矩阵算法,使用面向固定大小数据的平台扩展了稀疏图神经网络模型,使用 512 核 TPUv2 Pod 仅用 13 分钟训练,而原始训练需要近一天。
Jun, 2019