面向边缘 AI 系统的自动高效 BERT 剪枝
本文提出了 SwiftPruner,它是一个在线广告关键词预测的低延迟模型,采用结构剪枝的方法,利用演化搜索算法进行自动调整。通过多目标奖励来指导基因学习,优化层次稀疏模型的性能,该模型不仅在模拟测试中比其他模型具有更高的性能,而且在实际测试中更有效地降低了冷启动广告错误率。
Aug, 2022
本文研究了基于 transformer 的预训练语言模型的硬件友好型块结构裁剪技术,通过加入一项称为 “留组拉索” 的优化算法来进行裁剪操作并达到高压缩率,同时实验表明该方法适用于迁移到资源受限的边缘设备上。
Sep, 2020
本文针对自然语言处理中使用的 BERT 和 RoBERTa 模型进行了压缩,使用结构化剪枝和专门化蒸馏相结合的方法,实现了在保持高精度的同时速度大幅提升。
Oct, 2019
本文提出了一种新的模型适应策略 —— 剪枝适应,将神经模型预先训练的连接进行修剪以优化目标任务的性能,在剩余的连接中保留原有权重;我们将剪枝适应表述为具有可区分损失的优化问题,并提出了一种有效的算法来修剪模型。结果表明,在与微调完整模型相比产生类似性能的情况下,我们的方法可以剪枝 BERT 高达 50%的权重。
May, 2021
本论文研究在 NLP 领域中,对预训练的 Transformers 模型采取稀疏剪枝 (sparse pruning) 技术,相较于对其通道与层数的压缩,稀疏剪枝的效果更为显著。通过基于 GLUE 数据集的实验比较,证明本论文所采用的知识感知的稀疏剪枝方法可以实现 20 倍的参数 / FLOPs 压缩并且不会明显损失模型的性能。
Apr, 2021
我们研究了应用于基于 Transformer 的语音识别神经网络语言模型的模型修剪方法。我们探究了修剪框架的三个方面,即准则、方法和调度器,分析了它们在准确性和推理速度方面的贡献。除此之外,我们提出了一种适用于渐进式压缩模型、并可以交付多个具有不同目标尺寸的模型的低秩逼近的变体。我们的研究结果包括:a)在多种场景中,数据驱动的修剪效果优于基于幅度的修剪;b)渐进式修剪相比一次性修剪在准确性方面有更好的表现,特别是在目标尺寸较小时;c)对于中等压缩程度,低秩逼近提供了尺寸减小和推理加速之间的最佳平衡。
Oct, 2023
本论文提出了一种新的压缩策略,利用结构剪枝和知识蒸馏来减小 Conformer 模型的模型大小和推理成本,同时保持高识别性能。该方法优于所有剪枝基线,在 LibriSpeech 基准测试中实现了 50%的模型大小减少和 28%的推理成本减少,同时最小化了性能损失。
May, 2023
本文提出一种基于结构化稀疏方法的快速 Transformer 模型剪枝框架,无需重新训练即可保持高准确度,在 GLUE 和 SQuAD 数据集中分别实现了 2 倍的 FLOPs 减少和 1.56 倍的推理速度提升,在单个 GPU 上不到 3 分钟即可完成模型修剪。
Mar, 2022
EdgeBERT 是一种算法硬件协同设计,提供基于熵的早期退出预测,以进行动态电压频率缩放 (DVFS),从而实现最小能耗,同时遵循预定的目标延迟,以适应资源受限的边缘平台,在最小的计算和存储占用开销下,提供多任务自然语言处理 (NLP) 加速,相比于传统的推理方法,无限制的早期退出方法以及在 Nvidia Jetson Tegra X2 移动 GPU 上的 CUDA 适配,EdgeBERT 硬件系统在激活多任务 NLP 推理加速方面,能够生成高达 7x,2.5x 和 53x 的低能耗。
Nov, 2020
本文提出了一种针对 BERT 模型的自动混合精度量化框架,可以在子组水平同时进行量化和修剪,实现了压缩模型和保持同样性能的目标,并结合 DistilBERT 等方法获得了极轻量级模型。
Dec, 2021