SDBERT: SparseDistilBERT，一个更快、更小的 BERT 模型

Jul, 2022

SDBERT: SparseDistilBERT，一个更快、更小的 BERT 模型

SDBERT: SparseDistilBERT, a faster and smaller BERT model

Devaraju Vinoda, Pawan Kumar Yadav

TL;DR本文介绍了一种新的 Transformer 架构 - SparseDistilBERT，使用了稀疏注意力机制和知识蒸馏技术 (KD)。将稀疏注意力机制与 KD 技术相结合可以降低模型的复杂度，本文实现的 SparseDistilBERT 在保留 97% 性能的前提下只使用了原 BERT 模型大小的 40% 且训练时间缩短了 40%。

Abstract

In this work we introduce a new transformer architecture called sparsedistilbert (SDBERT), which is a combination of sparse attention and

sparsedistilbert transformer architecture sparse attention knowledge distillation bert model

发现论文，激发创造

TinyBERT：自然语言理解的 BERT 蒸馏模型

通过新的 Transformer 蒸馏方法和两阶段 TinyBERT 学习框架，可以有效地将大型 BERT 中的知识转移到小型 TinyBERT，从而在维持准确性的同时加速推理和减少模型大小，TinyBERT 在短语匹配任务的 GLUE 数据集上取得了 96.8% 以上的性能，模型大小约为 BERT 的 1/8，推理速度约为 BERT 的 1/10。

Sep, 2019

SKDBERT: 基于随机知识蒸馏的 BERT 压缩

本文提出了随机知识蒸馏（SKD）算法用于获得紧凑的 BERT 风格语言模型，同时在多个教师模型的帮助下提高了知识蒸馏的效力，实验结果表明 SKDBERT 在保持 99.5% 语言理解准确度的同时，压缩了 BERT_BASE 模型 40% 的大小且速度提升 100%。

Nov, 2022

简洁 TinyBERT：文档检索的知识蒸馏

该研究比较了两种知识蒸馏模型在文档排序任务中的有效性并对 TinyBERT 模型进行了两种简化，结果显示出这些简化不仅能够提升 TinyBERT 的性能，而且还可以在提供 15 倍速度提升的同时显著优于 BERT-Base。

Sep, 2020

KDLSQ-BERT: 一种结合知识蒸馏和学习步长量化的量化 BERT 模型

提出了一种基于 KDLSQ-BERT 的新型量化方法，将知识蒸馏与学习步长量化结合，可在保持精度的同时减小模型大小并提高推理性能，实现了 14.9 倍的压缩率，并且在各种比特（如 2 比特至 8 比特）的量化情况下表现出色。

Jan, 2021

DistilBERT：BERT 的简化版 —— 更小、更快、更便宜、更轻

通过知识蒸馏的预训练阶段，可以将 BERT 模型的大小缩小 40％，同时保持 97％的语言理解能力并且速度提升 60％，这种方法被称为 DistilBERT，并可为边缘设备上的计算提供良好的性能

Oct, 2019

基于分块的自注意力机制实现长文本理解

BlockBERT 为一个高效的 BERT 模型，引入了稀疏块结构，以更好的建模长距离依赖关系，在语言模型预训练和基准问答数据集上进行了实验。与 RoBERTa 模型相比，BlockBERT 可以节省大约 27.8% 的推理时间，并具有可比甚至更好的预测准确性。

Nov, 2019

SpikeBERT: 从 BERT 进行两阶段知识蒸馏训练的语言 Spikformer

我们改进了最近提出的脉冲变压器（即 Spikformer）以使其能够处理语言任务，并提出了一种两阶段知识蒸馏方法来训练它，该方法结合了通过从 BERT 对大量无标签文本进行知识蒸馏的预训练和通过再次从 BERT 在相同训练样本上进行知识蒸馏的微调来进行训练。通过广泛的实验证明，我们采用这种方法训练的模型，即 SpikeBERT，在英文和中文的文本分类任务上优于最先进的 SNNs，甚至能够达到与 BERTs 相当的结果，并且能够显著降低能量消耗。

Aug, 2023

schuBERT: 优化 BERT 的元素

基于 Transformer 的模型 BERT 在多项任务上取得最先进的结果，但由于参数数量巨大，计算代价昂贵。本文提出了一种基于算法优化的轻量级压缩方案，成功地减少了模型中的参数数量，且在保证精度的情况下相比 BERT 模型取得了更好的性能。

May, 2020

哪个学生最好？针对任务特定 BERT 模型的综合知识蒸馏考试

本文研究使用知识蒸馏从 BERT 模型到各种学生模型（BiLSTM、CNN、BERT-Tiny、BERT-Mini 和 BERT-Small）对印尼语文本分类和序列标记进行实验研究，提出了效率高的知识蒸馏训练机制，并发现使用 BiLSTM 和 CNN 学生模型可以在性能和计算资源方面提供最好的平衡。

Jan, 2022

LadaBERT：通过混合模型压缩实现 BERT 的轻量化适应

本篇论文提出了一种混合模型压缩方法 LadaBERT，结合权重剪枝、矩阵分解和知识蒸馏等技术，可以在保持较高准确性的同时将训练开销减少一个数量级。LadaBERT 是一种适用于在线服务的轻量级 BERT 模型，可以更好地满足用户请求的低延迟需求。

Apr, 2020