Transformer 转 CNN：用于文本分类的标签稀缺蒸馏方法

Sep, 2019

Transformer 转 CNN：用于文本分类的标签稀缺蒸馏方法

Transformer to CNN: Label-scarce distillation for efficient text classification

Yew Ken Chia, Sam Witteveen, Martin Andrews

TL;DR这篇论文介绍了一种用蒸馏过程从大型模型中训练出的卷积学生架构，它可以实现 300 倍的推理加速和 39 倍的参数减少，有时学生模型的性能甚至超过了它的老师模型。

Abstract

Significant advances have been made in natural language processing (NLP) modelling since the beginning of 2018. The new approaches allow for accurate results, even when there is little labelled data, because these NLP models can benefit from training on both task-agnostic and task-spec

natural language processing nlp modelling convolutional student architecture distillation process inference speedup

发现论文，激发创造

序列标注的编码器 - 解码器 Transformer 蒸馏

本文提出了一个无幻觉的框架，以序列标记为例，该框架非常适用于蒸馏，追求计算效率的蒸馏方法有望从这些大模型获得的知识中获益，并在多个序列标记数据集上展现了新的卓越表现，证明了这个框架在少量数据学习场景下进行大模型蒸馏的有用性。

Feb, 2023

文本分类的数据精炼

本研究提出了一种新的数据蒸馏方法，使用该方法在文本分类中将大型训练数据集压缩为更小的合成数据集，结果显示使用压缩后的数据集，在保持准确度的前提下只占原始数据集的 0.1%，获得了 90% 左右的性能。

Apr, 2021

小数据场景中高效自然语言理解的生成 - 蒸馏方法

通过 generation-distillation 训练方法，利用大型 fine-tuned 语言模型生成无标签训练数据，通过知识蒸馏技术将这些数据的知识转移给小型网络，从而缩小了预先训练 LM 和小型特定任务模型之间的性能差距，实现了使用更少的参数（仅为 BERT 的 300 倍）达到与 BERT 可比的性能。

Jan, 2020

用未标记的转移数据将 BERT 蒸馏为简单的神经网络

该研究论文针对知识蒸馏在自然语言处理中预训练模型所遇到的问题，探讨利用领域内未标记的数据、有限的已标记数据和基于简单 RNN 模型的硬蒸馏方法解决师生模型间性能差异的问题。实验结果表明，使用软蒸馏和利用教师模型的中间表示，学生模型的性能可以进一步提高，而在低资源环境下，学生模型在保证与教师模型性能基本持平的情况下，可实现最多 26 倍的压缩比，针对多语言环境的扩展实验结果更是惊人。

Oct, 2019

稀疏蒸馏：使用更大的学生模型加速文本分类

将最先进的 Transformer 模型转化为轻量级的 Student 模型是减少推理时间中计算成本的一种有效方法。本文进一步将 Teacher 模型提炼出更大、稀疏的 Student 模型，并在单句文本分类任务中表明，这些 Student 模型平均保留了 97％的 RoBERTa-Large Teacher 性能，同时在 GPU 和 CPU 上推理时间获得高达 600 倍的加速，同时对于句子对分类任务和域泛化设置也具有帮助。

Oct, 2021

基于注意力机制的高效图像变换及蒸馏训练

通过使用注意力机制的神经网络，我们以卷积神经网络为教师，在 ImageNet 上训练单个计算机下的优秀可比拟的转换器，并引入了基于蒸馏令牌的教师 - 学生策略，以获得竞争性结果。

Dec, 2020

数据集蒸馏：学习标签而非图像

针对数据集蒸馏的问题，我们提出了用合成标签来训练模型，比基于图像的方法更为有效；我们引入了更加鲁棒和灵活的元学习算法以及一种基于凸优化层的一阶策略，这种新算法可以提高模型的性能，并且可兼容各个优化器及不同的神经结构。我们的研究发现，标签蒸馏还能夸数据集应用，例如只通过合成标签的英文字母来训练以学习日文字母识别。

Jun, 2020

软标签数据集蒸馏及文本数据集蒸馏

通过软标签同时提取图像和标签以减少数据集的大小，拓展算法至可用于文本数据，对于多个数据集和分类任务提高了 2-4% 的准确率。

Oct, 2019

紧缩模型的经济微调：蒸馏还是注释？

通过在六个不同的 NLP 任务上进行实验，本文发现从 T5-XXL (11B) 到 T5-Small (60M) 的蒸馏通常比注释更多数据来直接训练紧凑型模型（T5-Small (60M)）更具成本效益，同时进一步证明了在不同预算情况下，最大化效用的最佳蒸馏量有所不同。

May, 2023

XtremeDistil：大规模多语言模型的多阶段蒸馏

本研究聚焦于多语言实体识别，探究知识蒸馏压缩预训练语言模型的多种策略，通过利用教师模型内部表示的分阶段优化方案，成功将 MBERT 模型压缩了 35 倍参数，51 倍批量推理的延迟，同时保持在 41 种语言中的 95％的 F1 分数。

Apr, 2020