稀疏蒸馏：使用更大的学生模型加速文本分类

ACLOct, 2021

稀疏蒸馏：使用更大的学生模型加速文本分类

Sparse Distillation: Speeding Up Text Classification by Using Bigger Student Models

Qinyuan Ye, Madian Khabsa, Mike Lewis, Sinong Wang, Xiang Ren...

TL;DR将最先进的 Transformer 模型转化为轻量级的 Student 模型是减少推理时间中计算成本的一种有效方法。本文进一步将 Teacher 模型提炼出更大、稀疏的 Student 模型，并在单句文本分类任务中表明，这些 Student 模型平均保留了 97％的 RoBERTa-Large Teacher 性能，同时在 GPU 和 CPU 上推理时间获得高达 600 倍的加速，同时对于句子对分类任务和域泛化设置也具有帮助。

Abstract

Distilling state-of-the-art transformer models into lightweight student models is an effective way to reduce computation cost at inference time. The →

transformer models computation cost student models n-gram embeddings text classification

发现论文，激发创造

句向量排序模型的极端压缩：在边缘设备上实现更快的推理、更长的电池续航和更少的存储

本篇研究提出了在两种不同类型的 ranker 模型上扩展句子转换蒸馏过程的两种方法，包括生成最优尺寸的词汇表和在蒸馏之前对教师的嵌入维数进行降维。结果表明，采用这些扩展技术的学生模型具有极大的压缩程度，而且在测试数据集上表现出高度的有效性和能用性。

Jun, 2022

用未标记的转移数据将 BERT 蒸馏为简单的神经网络

该研究论文针对知识蒸馏在自然语言处理中预训练模型所遇到的问题，探讨利用领域内未标记的数据、有限的已标记数据和基于简单 RNN 模型的硬蒸馏方法解决师生模型间性能差异的问题。实验结果表明，使用软蒸馏和利用教师模型的中间表示，学生模型的性能可以进一步提高，而在低资源环境下，学生模型在保证与教师模型性能基本持平的情况下，可实现最多 26 倍的压缩比，针对多语言环境的扩展实验结果更是惊人。

Oct, 2019

预训练模型摘要精馏

使用三种不同的压缩学生模型的方法（直接知识蒸馏、伪标签蒸馏和收缩和微调），对当前和过去的最先进的 PEGASUS 和 BART 模型进行压缩蒸馏，在 CNN / DailyMail 数据集上 SFT 方法表现最佳，在更抽象的 XSUM 数据集上伪标签蒸馏方法表现更好。

Oct, 2020

Transformer 转 CNN：用于文本分类的标签稀缺蒸馏方法

这篇论文介绍了一种用蒸馏过程从大型模型中训练出的卷积学生架构，它可以实现 300 倍的推理加速和 39 倍的参数减少，有时学生模型的性能甚至超过了它的老师模型。

Sep, 2019

DistilBERT：BERT 的简化版 —— 更小、更快、更便宜、更轻

通过知识蒸馏的预训练阶段，可以将 BERT 模型的大小缩小 40％，同时保持 97％的语言理解能力并且速度提升 60％，这种方法被称为 DistilBERT，并可为边缘设备上的计算提供良好的性能

Oct, 2019

来自混合词汇训练的极小 BERT 模型

本文通过使用混合词汇训练来对齐师生嵌入，提出了一种压缩 BERT-LARGE 的知识蒸馏方法，使其成为一个具有更小词汇表和隐藏维数的无任务模型，这个模型的经验结果表明它比其他压缩 BERT 模型在语言理解基准和实际对话任务中具有更好的性价比。

Sep, 2019

强化多教师选择的知识蒸馏

本文研究了一种改进模型压缩方法，通过强化学习动态调整知识蒸馏中教师模型的权重，从而提高了学生模型性能，适用于自然语言处理任务。

Dec, 2020

TinyBERT：自然语言理解的 BERT 蒸馏模型

通过新的 Transformer 蒸馏方法和两阶段 TinyBERT 学习框架，可以有效地将大型 BERT 中的知识转移到小型 TinyBERT，从而在维持准确性的同时加速推理和减少模型大小，TinyBERT 在短语匹配任务的 GLUE 数据集上取得了 96.8% 以上的性能，模型大小约为 BERT 的 1/8，推理速度约为 BERT 的 1/10。

Sep, 2019

学生超越导师：基于师生模型的词嵌入蒸馏与集成学习

本文提出了一种新的嵌入蒸馏框架，使词嵌入的维度显著降低但不影响准确性，并介绍了使用多个教师模型训练高效的学生模型的新型蒸馏集成方法。通过实验验证，在七个文本分类数据集上，该方法在大多数情况下均表现出比教师模型更好的性能，对词嵌入的变换进行了深入分析，并提出了使用神经模型进行融合的未来研究方向。

May, 2019

BERT 排名器在蒸馏下的理解

本文研究了如何通过蒸馏将 BERT 中的搜索知识传递到更小的排名器中，实验表明，使用适当的蒸馏过程可以实现最高 9 倍速度提升，同时保持最先进的性能。

Jul, 2020