模块化 Transformer：将 Transformer 压缩为模块化层以进行灵活高效的推理

ACLJun, 2023

模块化 Transformer：将 Transformer 压缩为模块化层以进行灵活高效的推理

Modular Transformers: Compressing Transformers into Modularized Layers for Flexible Efficient Inference

Wangchunshu Zhou, Ronan Le Bras, Yejin Choi

TL;DR本文提出了 Modular Transformers 框架，用于灵活的序列到序列模型压缩，通过模块化编码器 - 解码器并进行知识蒸馏，可以实现灵活的压缩比率从 1.1x 到 6x，并且在保持相对性能不变的情况下，可以根据需要灵活组装模块化层。

Abstract

Pre-trained transformer models like T5 and BART have advanced the state of the art on a wide range of text generation tasks. Compressing these models into smaller ones has become critically important for practical use. Common neural network compression techniques such as →

transformer models model compression modular transformers knowledge distillation performance-efficiency trade-offs

发现论文，激发创造

自然语言理解的量化感知和张量压缩 Transformer 训练

该论文提出了一种量化感知张量压缩训练方法，通过将 Transformer 模型的嵌入层和线性层压缩成小的低秩张量核，进一步获得低精度的模型表示进行端到端和蒸馏 - based 训练，并应用层与层的蒸馏方法将预训练的 Transformer 模型转换为量化和张量压缩的学生模型以提高收敛速度，并在两个自然语言理解任务中表现出高达 63 倍的压缩比、几乎无损的精度损失和显著的推断和训练加速。

Jun, 2023

Transformer 压缩综述

在该研究中，作者通过综述了解压缩方法对 Transformer 模型在自然语言处理和计算机视觉领域的应用，并对修剪、量化等压缩方法进行了分类和讨论。

Feb, 2024

使用低比特 NxM 稀疏压缩预训练 Transformers 以增强自然语言理解

本文提出了新的框架 NxMiFormer，同时使用 ADMM 和 STE-based QAT 进行稀疏化和量化，通过搜索算法找到最优的异构压缩配置，使预处理 Transformer 网络在 NLU 测试中达到 93% 的压缩率并保持 98% 以上的准确性。

Jun, 2022

一次性剪枝：稀疏预训练语言模型

通过结合权重剪枝和模型蒸馏技术，我们提出了一种新的方法，用于训练稀疏的预训练变压器语言模型，这些模型可以快速高效地用于各种自然语言处理任务，并保持其稀疏性，同时我们进一步使用量化感知训练来将这些稀疏模型压缩为 8 位精度。我们证明了我们的稀疏预训练 BERT-Base、BERT-Large 和 DistilBERT 可以在多种自然语言任务中以极小的准确度损失传输其知识，是目前压缩 - to - 准确度比率最好的压缩 BERT-Base、BERT-Large 和 DistilBERT 方法。

Nov, 2021

文本深度学习模型压缩综述

本文综述了近年来自然语言处理和信息检索领域的深度学习模型在压缩方面的六种方法，并探讨了构建高效、小型模型的重要性以及相关研究成果。

Aug, 2020

DQ-BART: 联合蒸馏和量化的高效序列转序列模型

本文针对预训练模型在资源受限情况下，因占用大量内存和高延迟而面临的挑战，提出联合蒸馏和量化的方法，成功实现了在生成任务的多个数据集上 16.5 倍的模型足迹压缩比，而性能相对于完整精度版本并没有明显下降，并在压缩比达到 27.7 倍的情况下提供了性能和效率的权衡分析，此方法在语言生成任务中是首次有效地利用蒸馏和量化成功压缩预训练的序列到序列模型。

Mar, 2022

句向量排序模型的极端压缩：在边缘设备上实现更快的推理、更长的电池续航和更少的存储

本篇研究提出了在两种不同类型的 ranker 模型上扩展句子转换蒸馏过程的两种方法，包括生成最优尺寸的词汇表和在蒸馏之前对教师的嵌入维数进行降维。结果表明，采用这些扩展技术的学生模型具有极大的压缩程度，而且在测试数据集上表现出高度的有效性和能用性。

Jun, 2022

Theseus 的 BERT：通过渐进式模块替换压缩 BERT

本文提出了一种使用渐进模块替换的新型模型压缩方法来有效压缩 BERT。通过在训练中逐步增加替换的概率，使得我们的方法在原始和紧凑模型之间带来了更深入的交互，同时不需要引入任何额外的损失函数，在 GLUE 基准测试中，我们的方法优于现有的知识蒸馏方法，展示了一种新的模型压缩视角。

Feb, 2020

预训练 Transformer 的极致压缩简单高效实现

本文通过回顾相关学者先前的工作，系统地探讨了几个关键参数的影响。在此基础上，提出了一种名为 XTC 的简单而有效的压缩流程，它通过极端量化和层减少使模型尺寸降低了 50 倍，并在 GLUE 任务上实现了最新的最佳结果。

Jun, 2022

通过量化实现生成预训练语言模型的压缩

本文介绍了一种基于量化的压缩生成式语言模型的方法，该方法使用了基于 token 的对比 distillation 技术学习可区分的单词嵌入，并提出了一个基于模块的动态缩放技术，适应不同模块的量化器，实验结果表明该方法在各种任务上性能优于基准方法，并且实现了 14.4x 和 13.4x 的压缩率，与全精度模型具有可比性。

Mar, 2022