神经修剪：一种用于大型语言模型的基于神经网络的拓扑稀疏训练算法

Feb, 2024

神经修剪：一种用于大型语言模型的基于神经网络的拓扑稀疏训练算法

NeuroPrune: A Neuro-inspired Topological Sparse Training Algorithm for Large Language Models

Amit Dhurandhar, Tejaswini Pedapati, Ronny Luss, Soham Dan, Aurelie Lozano...

TL;DR基于 Transformers 的语言模型在自然语言处理中表现出色，但训练和推理仍然是一个重要的障碍。我们通过神经网络的角度来探索稀疏性方法，利用生物网络中的机制，如优先连接和冗余突触修剪，展示了基于模型的稀疏性方法在多样的 NLP 任务中表现出色，并且在训练时间上可快速到 10 倍，同时在许多情况下推理时间也有明显的改善。

Abstract

transformer-based language models have become ubiquitous in Natural Language Processing (NLP) due to their impressive performance on various tasks. However, expensive training as well as inference remains a significant impediment to their widespread applicability. While enforcing spars

transformer-based language models sparsity approaches network topology nlp tasks neuroprune

发现论文，激发创造

重构网络剪枝 -- 在预训练和微调范式下

本论文研究在 NLP 领域中，对预训练的 Transformers 模型采取稀疏剪枝 (sparse pruning) 技术，相较于对其通道与层数的压缩，稀疏剪枝的效果更为显著。通过基于 GLUE 数据集的实验比较，证明本论文所采用的知识感知的稀疏剪枝方法可以实现 20 倍的参数 / FLOPs 压缩并且不会明显损失模型的性能。

Apr, 2021

具备稀疏约束的端到端网络剪枝流程

神经网络稀疏化通过减少模型大小、计算复杂度和内存占用的同时保持竞争性能，成为在资源受限设备上部署的有效技术。本研究开发了适应神经网络稀疏化的全程训练流程，利用非标准模型参数初始化、预修剪训练方法和后修剪训练优化等技术，实现了显著提升于当前最先进的神经网络稀疏化方法的效果。

Dec, 2023

准确神经网络剪枝需要重思稀疏优化

使用标准的计算机视觉和自然语言处理稀疏基准测试，探讨高稀疏性对模型训练的影响，提供了一种解决有关稀疏训练困难的新方法，并在高稀疏性环境下实现了在视觉模型和语言模型上最先进的结果。

Aug, 2023

神经语言模型修剪用于自动语音识别

我们研究了应用于基于 Transformer 的语音识别神经网络语言模型的模型修剪方法。我们探究了修剪框架的三个方面，即准则、方法和调度器，分析了它们在准确性和推理速度方面的贡献。除此之外，我们提出了一种适用于渐进式压缩模型、并可以交付多个具有不同目标尺寸的模型的低秩逼近的变体。我们的研究结果包括：a）在多种场景中，数据驱动的修剪效果优于基于幅度的修剪；b）渐进式修剪相比一次性修剪在准确性方面有更好的表现，特别是在目标尺寸较小时；c）对于中等压缩程度，低秩逼近提供了尺寸减小和推理加速之间的最佳平衡。

Oct, 2023

连通性的重要性：基于有效稀疏度的神经网络剪枝

本文针对神经网络剪枝技术在高稀疏度领域的应用，提出了新的有效稀疏度概念，重定义了性能评价指标，同时开发了一个成本较低的扩展工具，通过评估各种剪枝算法的绝对和相对性能表现，证明新的评价框架下与基于初始化的剪枝算法相比，随机剪枝仍然是一种可行的方法。

Jul, 2021

利用稀疏性在剪枝神经网络中优化大模型训练

本文提出利用稀疏子网络以优化内存利用和通信的方法来加速深度学习中的数据和层间并行算法，并将其融入 AxoNN，实验证明在 512 NVIDIA V100 GPU 上，相比于 AxoNN，DeepSpeed-3D 和 Sputnik，优化后的模型内存消耗减少了 74％，总通信时间减少了 40％，从而提供了 34％的总体加速。

Feb, 2023

深度学习中的稀疏性：剪枝和生长用于神经网络的高效推理和训练

本文系统梳理了当前深度学习领域中关于稀疏性技术的研究现状，并提供了丰富的稀疏性实现、训练策略及其数学方法等方面的教程，指明如何通过利用稀疏性以达到优化神经网络结构和提高性能的目的。

Jan, 2021

使用任何掩码更好地训练您的稀疏神经网络

本研究提出了一种新的稀疏训练技术，使用 “幽灵” 神经元和跳跃连接等训练初始策略来提高性能和稳定性，适用于各种稀疏掩蔽方法下的深度学习网络

Jun, 2022

通过神经元选择对递归神经网络进行结构化剪枝

通过神经元选择的结构化剪枝方法，可以通过减小基本结构的尺寸来减少 RNN 的存储和计算成本，并利用 L0 范数优化，取得了语言建模等任务上的优异表现。

Jun, 2019

PruneTrain: 动态稀疏模型重组快速神经网络训练

我们提出了 PruneTrain，这是一种成本高效的机制，可逐步减少训练期间的计算成本，通过使用结构化组套骨骼正则化方法和其他重新配置技术，可以在 GPU 加速器上高效处理缩小了的卷积神经网络模型，从而实现减少计算成本 40％和训练时间 39％的效果。

Jan, 2019