面向边缘 AI 系统的自动高效 BERT 剪枝

Jun, 2022

面向边缘 AI 系统的自动高效 BERT 剪枝

An Automatic and Efficient BERT Pruning for Edge AI Systems

Shaoyi Huang, Ning Liu, Yueying Liang, Hongwu Peng, Hongjia Li...

TL;DR提出 AE-BERT，一种自动和高效的 BERT 剪枝框架，可在资源受限设备上实现基于 Transformer 自然语言处理模型并提高准确性。实验结果表明，在压缩模型后，与 CPU 相比使用 AE-BERT 产生的 BERT 基础编码器子网络可以在类似的总剪枝比率下获得更高的分数，并提高推理时间。

Abstract

With the yearning for deep learning democratization, there are increasing demands to implement transformer-based natural language processing (NLP) models on resource-constrained devices for low-latency and high accuracy. Existing →

transformer-based natural language processing bert pruning methods ae-bert glue benchmark model compression

发现论文，激发创造

SwiftPruner: 针对高效广告相关性的强化进化剪枝

本文提出了 SwiftPruner，它是一个在线广告关键词预测的低延迟模型，采用结构剪枝的方法，利用演化搜索算法进行自动调整。通过多目标奖励来指导基因学习，优化层次稀疏模型的性能，该模型不仅在模拟测试中比其他模型具有更高的性能，而且在实际测试中更有效地降低了冷启动广告错误率。

Aug, 2022

硬件友好的块结构剪枝优化 Transformer 大规模语言表示

本文研究了基于 transformer 的预训练语言模型的硬件友好型块结构裁剪技术，通过加入一项称为 “留组拉索” 的优化算法来进行裁剪操作并达到高压缩率，同时实验表明该方法适用于迁移到资源受限的边缘设备上。

Sep, 2020

基于 BERT 的问答模型的结构化剪枝

本文针对自然语言处理中使用的 BERT 和 RoBERTa 模型进行了压缩，使用结构化剪枝和专门化蒸馏相结合的方法，实现了在保持高精度的同时速度大幅提升。

Oct, 2019

剪枝的调适：BERT 的案例研究

本文提出了一种新的模型适应策略 —— 剪枝适应，将神经模型预先训练的连接进行修剪以优化目标任务的性能，在剩余的连接中保留原有权重；我们将剪枝适应表述为具有可区分损失的优化问题，并提出了一种有效的算法来修剪模型。结果表明，在与微调完整模型相比产生类似性能的情况下，我们的方法可以剪枝 BERT 高达 50％的权重。

May, 2021

重构网络剪枝 -- 在预训练和微调范式下

本论文研究在 NLP 领域中，对预训练的 Transformers 模型采取稀疏剪枝 (sparse pruning) 技术，相较于对其通道与层数的压缩，稀疏剪枝的效果更为显著。通过基于 GLUE 数据集的实验比较，证明本论文所采用的知识感知的稀疏剪枝方法可以实现 20 倍的参数 / FLOPs 压缩并且不会明显损失模型的性能。

Apr, 2021

神经语言模型修剪用于自动语音识别

我们研究了应用于基于 Transformer 的语音识别神经网络语言模型的模型修剪方法。我们探究了修剪框架的三个方面，即准则、方法和调度器，分析了它们在准确性和推理速度方面的贡献。除此之外，我们提出了一种适用于渐进式压缩模型、并可以交付多个具有不同目标尺寸的模型的低秩逼近的变体。我们的研究结果包括：a）在多种场景中，数据驱动的修剪效果优于基于幅度的修剪；b）渐进式修剪相比一次性修剪在准确性方面有更好的表现，特别是在目标尺寸较小时；c）对于中等压缩程度，低秩逼近提供了尺寸减小和推理加速之间的最佳平衡。

Oct, 2023

高效自动语音识别的精准结构化剪枝

本论文提出了一种新的压缩策略，利用结构剪枝和知识蒸馏来减小 Conformer 模型的模型大小和推理成本，同时保持高识别性能。该方法优于所有剪枝基线，在 LibriSpeech 基准测试中实现了 50％的模型大小减少和 28％的推理成本减少，同时最小化了性能损失。

May, 2023

Transformer 模型的快速后训练剪枝框架

本文提出一种基于结构化稀疏方法的快速 Transformer 模型剪枝框架，无需重新训练即可保持高准确度，在 GLUE 和 SQuAD 数据集中分别实现了 2 倍的 FLOPs 减少和 1.56 倍的推理速度提升，在单个 GPU 上不到 3 分钟即可完成模型修剪。

Mar, 2022

EdgeBERT：面向延迟感知的多任务 NLP 推理的句子级能耗优化

EdgeBERT 是一种算法硬件协同设计，提供基于熵的早期退出预测，以进行动态电压频率缩放 (DVFS)，从而实现最小能耗，同时遵循预定的目标延迟，以适应资源受限的边缘平台，在最小的计算和存储占用开销下，提供多任务自然语言处理 (NLP) 加速，相比于传统的推理方法，无限制的早期退出方法以及在 Nvidia Jetson Tegra X2 移动 GPU 上的 CUDA 适配，EdgeBERT 硬件系统在激活多任务 NLP 推理加速方面，能够生成高达 7x，2.5x 和 53x 的低能耗。

Nov, 2020

BERT 自动混合精度量化搜索

本文提出了一种针对 BERT 模型的自动混合精度量化框架，可以在子组水平同时进行量化和修剪，实现了压缩模型和保持同样性能的目标，并结合 DistilBERT 等方法获得了极轻量级模型。

Dec, 2021