序列到序列模型的结构剪枝:提高推理效率的非对称方法
本论文提出了一种新的压缩策略,利用结构剪枝和知识蒸馏来减小 Conformer 模型的模型大小和推理成本,同时保持高识别性能。该方法优于所有剪枝基线,在 LibriSpeech 基准测试中实现了 50%的模型大小减少和 28%的推理成本减少,同时最小化了性能损失。
May, 2023
通过研究解耦编码器和解码器组件的结构修剪方法在编码器 - 解码器模型上的行为,本研究发现解码器层数是推理速度的主要因素,修剪编码器网络得到低稀疏度可以提高生成质量。基于这些发现,提出了一种简单而有效的框架 NASH,可以缩短编码器和解码器网络,对于多样化的生成和推理任务实验证实了我们方法在加速和输出质量上的有效性。
Oct, 2023
用于资源受限设备的大型语言模型结构剪枝方法,在多层结构的基础上,通过自适应建模和融合估计结果实现了对每个子结构的重要性的自适应调整,实验结果表明在主流数据集上相比最先进的方法,平均准确率提高了 1.1%,1.02%,2.0%和 1.2%。
Mar, 2024
我们研究了应用于基于 Transformer 的语音识别神经网络语言模型的模型修剪方法。我们探究了修剪框架的三个方面,即准则、方法和调度器,分析了它们在准确性和推理速度方面的贡献。除此之外,我们提出了一种适用于渐进式压缩模型、并可以交付多个具有不同目标尺寸的模型的低秩逼近的变体。我们的研究结果包括:a)在多种场景中,数据驱动的修剪效果优于基于幅度的修剪;b)渐进式修剪相比一次性修剪在准确性方面有更好的表现,特别是在目标尺寸较小时;c)对于中等压缩程度,低秩逼近提供了尺寸减小和推理加速之间的最佳平衡。
Oct, 2023
该研究通过结构化剪枝方法,以低秩分解参数化权重矩阵并在训练过程中自适应地移除秩 1 分量,提高了大型语言模型的压缩效果和训练 / 推理速度,并展示了该方法可应用于 BERT 模型的下游 fine-tuning 分类。
Oct, 2019
该研究提出三种任务特定的结构化剪枝方法,以减少自我监督语音表示学习和前端网络的计算成本,同时保持模型准确性并提高计算效率。在实验中,该方法在减少 40% 到 50% 的计算成本的情况下,比原始 wav2vec2-base 模型更准确的表现出更高的计算效率。
Feb, 2023
本研究评估了基于结构化剪枝在多语言预训练语言模型上的三个方面:设置、算法和效率,并通过在九个下游任务中的实验展示了一些反直觉现象。为了方便各个稀疏度水平上的比较,我们提出了一种简单的方法 —— 动态稀疏化,它可以让模型只需要训练一次就能适应不同的模型大小。我们希望这项工作填补了关于多语言预训练模型上的结构化剪枝研究的空白,并为未来的研究提供启示。
Apr, 2022
本文对自然语言处理中的长文本序列建模技术进行了深入的研究,通过使用两种常见的长序列模型 ——LED 和 Big Bird,实验分析了模型大小、输入序列长度等因素对其性能表现的影响。发现在精准性、速度和能耗之间存在着权衡,其中 LED 模型在较低的能耗代价下达到了更好的精确度,且模型的性能表现受到超参数的影响。同时,当模型大小和输入序列长度发生变化时,我们还发现了在文本摘要和问答场景下不同的性能优化策略。
Apr, 2022
本研究提出了一种基于稀疏性诱导正则化的层选择方法,用于压缩大型预训练语言模型,以提高特定任务的计算效率,并在两个基准数据集上进行了实验验证其有效性。
Apr, 2018