基于 Transformer 的大规模模型压缩：以 BERT 为例的案例研究

ACLFeb, 2020

基于 Transformer 的大规模模型压缩：以 BERT 为例的案例研究

Compressing Large-Scale Transformer-Based Models: A Case Study on BERT

Prakhar Ganesh, Yao Chen, Xin Lou, Mohammad Ali Khan, Yin Yang...

TL;DR本文总结了压缩预训练 Transformer 模型的研究进展，尤其关注流行的 BERT 模型的最佳压缩实践和方法，提出未来发展的方向，以达到轻量、高准确性和通用性的自然语言处理模型。

Abstract

pre-trained transformer-based models have achieved state-of-the-art performance for various Natural Language Processing (nlp) tasks. However, these models often have billions of parameters, and, thus, are too res

pre-trained transformer-based models model compression bert nlp resource-efficient models

发现论文，激发创造

探索预训练语言模型的极端参数压缩

探索利用张量分解实现更大的压缩比率来压缩 BERT 模型的研究，取得了可接受的性能损失并显著提高了推理效率，最高压缩至原模型的 1/48，且在 GLUE 基准测试中取得了与原模型相当或略优的表现，该方法相对于蒸馏等现有的压缩方法独立有效。

May, 2022

文本深度学习模型压缩综述

本文综述了近年来自然语言处理和信息检索领域的深度学习模型在压缩方面的六种方法，并探讨了构建高效、小型模型的重要性以及相关研究成果。

Aug, 2020

Transformer 压缩综述

在该研究中，作者通过综述了解压缩方法对 Transformer 模型在自然语言处理和计算机视觉领域的应用，并对修剪、量化等压缩方法进行了分类和讨论。

Feb, 2024

训练大模型，压缩小模型：重新思考 Transformers 的高效训练与推断模型大小

研究表明，即使较小的 Transformer 模型在每次迭代中执行更快，较宽且较深的模型在明显更少的步骤中收敛。此外，大型模型比小型模型更 robust，因此，高度压缩的大型模型实现比轻度压缩的小型模型更高的准确性

Feb, 2020

Q8BERT：量化 8 位 BERT

本文介绍了如何在 BERT 的 fine-tuning 阶段进行量化感知的训练，以将 BERT 压缩 4 倍并加速推理速度。

Oct, 2019

NAS-BERT: 任务无关和自适应尺寸 BERT 压缩及神经架构搜索

本文提出了一种基于神经网络结构搜索 (neural architecture search, NAS) 的 BERT 压缩方法 NAS-BERT，其可输出多个带有不同大小和延迟的压缩模型，适用于不同的内存和延迟限制，并且不需要针对特定的下游任务进行调整。该方法在 GLUE 和 SQuAD 数据集上的实验表明，NAS-BERT 相比以前的方法具有更好的准确性，可以直接应用于具有不同内存或延迟要求的不同下游任务。

May, 2021

预训练语言模型压缩和加速综述

该文章调查了预训练语言模型的压缩和加速方法，重点关注了模型在 NLP 领域推理阶段的表现，并提出为 NLP 的整个生命周期（包括数据准备、模型训练和推理）综合考虑计算、时间和碳排放的高效 NLP 研究。

Feb, 2022

基于变形金刚 (Block-wise) 的模型比特压缩

该研究提出了一种名为 BBCT 的方法，用于对 Transformer-based models 进行块状位压缩，以减少其对计算的需求和内存的占用。经过在 BERT 上的测试，BBCT 可以在保持精度的前提下显著减少模型的计算和内存占用。

Mar, 2023

压缩基于 Transformer 的自监督模型用于语音处理

本文旨在探讨通过多种压缩技术（如剪枝和知识蒸馏）来减小基于 Transformer 的自监督模型的计算复杂度，以适应不同设备的应用场景，并通过比较参数数量、操作数和时间等指标，综合分析这些技术的优劣。

Nov, 2022

LadaBERT：通过混合模型压缩实现 BERT 的轻量化适应

本篇论文提出了一种混合模型压缩方法 LadaBERT，结合权重剪枝、矩阵分解和知识蒸馏等技术，可以在保持较高准确性的同时将训练开销减少一个数量级。LadaBERT 是一种适用于在线服务的轻量级 BERT 模型，可以更好地满足用户请求的低延迟需求。

Apr, 2020