数据并行和稀疏性对神经网络训练的影响理解
本文评估了三种在深度神经网络中引入稀疏性的技术,并对两个大规模的学习任务进行了严格评估,结果表明,简单的幅度剪枝方法可以获得相当或更好的性能,而不能从头开始训练稀疏结构,并强调了建立大规模基准测试的必要性。
Feb, 2019
本文研究了通过发展一种称为稀疏动量的算法,实现在深度神经网络训练过程中,保持稀疏权重的同时实现稠密表现水平的加速训练方法,实验证明稀疏动量可靠地重现稠密表现水平并提供最多5.61倍的训练加速度。
Jul, 2019
本文介绍了一种新的神经网络剪枝算法——Dynamic Sparse Training,它可以通过可训练的剪枝门限实现优化神经网络参数和结构,并通过反向传播动态地进行精细化调整。利用这一算法,我们可以轻松训练出效果优秀的稀疏神经网络。与其他稀疏训练算法相比,Dynamic Sparse Training在多个网络架构上取得了业界领先水平。此外,我们还发现了传统三阶段剪枝算法的潜在问题,为更紧凑的神经网络架构设计提供了理论指导。
May, 2020
我们提出了一种不需要训练数据也能够在初始阶段识别高度稀疏的可训练子网络的剪枝算法,该算法基于神经突触流动原理并叫做迭代神经突触流剪枝算法(SynFlow),在多种模型、数据集和稀疏约束条件下,表现出和现有最先进的基于梯度的剪枝算法相当或更好的结果,成功挑战了基于训练数据来定量判断哪些突触重要的传统范式。
Jun, 2020
这篇论文首次调查了一种新兴的神经网络裁剪方式——在初始化时裁剪(PaI),并介绍了其稀疏训练和稀疏选择两大主要方法。此外,该论文还提供了一个用于不同PaI方法的基准测试和检查的代码库。
Mar, 2021
本研究探讨了如何在现代神经网络中使用稀疏训练,提出了初始化时的随机剪枝能够有效地提高神经网络的稀疏训练性能,结果表明此方法可以匹配对应的密集网络,达到了预期效果,并且进行适当的层级稀疏比率的选择,可以进一步提高性能。
Feb, 2022
本文提出利用稀疏子网络以优化内存利用和通信的方法来加速深度学习中的数据和层间并行算法,并将其融入 AxoNN,实验证明在 512 NVIDIA V100 GPU上,相比于 AxoNN,DeepSpeed-3D和 Sputnik,优化后的模型内存消耗减少了74%,总通信时间减少了40%,从而提供了34%的总体加速。
Feb, 2023
彩票模型的存在考虑了深度学习中是否需要大型模型以及是否可以快速识别和训练稀疏网络,而无需训练包含它们的稠密模型。通过对彩票模型的理论解释,揭示了稀疏网络需要依赖于数据的遮罩来稳定插值噪声数据。研究证实了训练过程中获取的信息可以影响模型容量。
Feb, 2024