序列到序列模型的结构剪枝：提高推理效率的非对称方法

Apr, 2023

序列到序列模型的结构剪枝：提高推理效率的非对称方法

To Asymmetry and Beyond: Structured Pruning of Sequence to Sequence Models for Improved Inference Efficiency

Daniel Campos, ChengXiang Zhai

TL;DR该研究研究了模型大小、结构修剪、推理效率和摘要准确性之间的关系，发现准确性与编码器大小相关，而推理效率与解码器相关，使用非对称修剪可以在保持相同摘要准确性的情况下将推理延迟减少近 3 倍。

Abstract

sequence-to-sequence language models can be used to produce abstractive summaries which are coherent, relevant, and concise. Still, model sizes can make deployment in latency-sensitive or web-scale implementations difficult. This paper studies the relationship between →

sequence-to-sequence language models abstractive summaries model size structured pruning inference efficiency

发现论文，激发创造

高效自动语音识别的精准结构化剪枝

本论文提出了一种新的压缩策略，利用结构剪枝和知识蒸馏来减小 Conformer 模型的模型大小和推理成本，同时保持高识别性能。该方法优于所有剪枝基线，在 LibriSpeech 基准测试中实现了 50％的模型大小减少和 28％的推理成本减少，同时最小化了性能损失。

May, 2023

NASH: 一个简单统一的结构剪枝加速编码 - 解码语言模型框架

通过研究解耦编码器和解码器组件的结构修剪方法在编码器 - 解码器模型上的行为，本研究发现解码器层数是推理速度的主要因素，修剪编码器网络得到低稀疏度可以提高生成质量。基于这些发现，提出了一种简单而有效的框架 NASH，可以缩短编码器和解码器网络，对于多样化的生成和推理任务实验证实了我们方法在加速和输出质量上的有效性。

Oct, 2023

大规模语言模型的高效剪枝与自适应推理融合

用于资源受限设备的大型语言模型结构剪枝方法，在多层结构的基础上，通过自适应建模和融合估计结果实现了对每个子结构的重要性的自适应调整，实验结果表明在主流数据集上相比最先进的方法，平均准确率提高了 1.1％，1.02％，2.0％和 1.2％。

Mar, 2024

神经语言模型修剪用于自动语音识别

我们研究了应用于基于 Transformer 的语音识别神经网络语言模型的模型修剪方法。我们探究了修剪框架的三个方面，即准则、方法和调度器，分析了它们在准确性和推理速度方面的贡献。除此之外，我们提出了一种适用于渐进式压缩模型、并可以交付多个具有不同目标尺寸的模型的低秩逼近的变体。我们的研究结果包括：a）在多种场景中，数据驱动的修剪效果优于基于幅度的修剪；b）渐进式修剪相比一次性修剪在准确性方面有更好的表现，特别是在目标尺寸较小时；c）对于中等压缩程度，低秩逼近提供了尺寸减小和推理加速之间的最佳平衡。

Oct, 2023

大型语言模型的结构裁剪

该研究通过结构化剪枝方法，以低秩分解参数化权重矩阵并在训练过程中自适应地移除秩 1 分量，提高了大型语言模型的压缩效果和训练 / 推理速度，并展示了该方法可应用于 BERT 模型的下游 fine-tuning 分类。

Oct, 2019

自监督预训练模型结构化剪枝的语音识别与理解

该研究提出三种任务特定的结构化剪枝方法，以减少自我监督语音表示学习和前端网络的计算成本，同时保持模型准确性并提高计算效率。在实验中，该方法在减少 40% 到 50% 的计算成本的情况下，比原始 wav2vec2-base 模型更准确的表现出更高的计算效率。

Feb, 2023

探究多语言预训练模型的结构剪枝：设置、算法和效率

本研究评估了基于结构化剪枝在多语言预训练语言模型上的三个方面：设置、算法和效率，并通过在九个下游任务中的实验展示了一些反直觉现象。为了方便各个稀疏度水平上的比较，我们提出了一种简单的方法 —— 动态稀疏化，它可以让模型只需要训练一次就能适应不同的模型大小。我们希望这项工作填补了关于多语言预训练模型上的结构化剪枝研究的空白，并为未来的研究提供启示。

Apr, 2022

长上下文 NLP 模型中效率与准确性的权衡特征

本文对自然语言处理中的长文本序列建模技术进行了深入的研究，通过使用两种常见的长序列模型 ——LED 和 Big Bird，实验分析了模型大小、输入序列长度等因素对其性能表现的影响。发现在精准性、速度和能耗之间存在着权衡，其中 LED 模型在较低的能耗代价下达到了更好的精确度，且模型的性能表现受到超参数的影响。同时，当模型大小和输入序列长度发生变化时，我们还发现了在文本摘要和问答场景下不同的性能优化策略。

Apr, 2022

通过神经架构搜索对预训练语言模型进行结构修剪

基于预训练语言模型和神经架构搜索的结构修剪方法，通过多目标策略实现对子网络的灵活压缩，提高模型效率。

May, 2024

序列标注的语言模型剪枝：高效的上下文表示

本研究提出了一种基于稀疏性诱导正则化的层选择方法，用于压缩大型预训练语言模型，以提高特定任务的计算效率，并在两个基准数据集上进行了实验验证其有效性。

Apr, 2018