大型语言模型蒸馏不需要教师

May, 2023

Large Language Model Distillation Doesn't Need a Teacher

Ananya Harsh Jha, Dirk Groeneveld, Emma Strubell, Iz Beltagy

TL;DR本文介绍了一种针对大型语言模型的任务无关的零样本评估蒸馏方法，该方法使用截断版本的大模型作为初始化，并使用语言建模目标继续预训练该模型，已从根本上解决了对任务特定学习数据的依赖。本方法可以在无法将教师和学生都放入 GPU 内存的情况下将模型尺寸有效减少 50％，并在 13 个零样本端到端任务上达到了与基准蒸馏方法相当或超越的性能和准确性，计算效率提高了 1.5 倍。

Abstract

knowledge distillation trains a smaller student model to match the output distribution of a larger teacher to maximize the end-task performance under computational constraints. However, existing literature on language m

knowledge distillation language model task-agnostic distillation method model performance

发现论文，激发创造

学生大型语言模型是否能和老师一样表现出色？

深度学习模型、知识蒸馏、软标签、温度缩放和模型性能在知识蒸馏中的关键决定因素及其潜力。

Oct, 2023

小数据场景中高效自然语言理解的生成 - 蒸馏方法

通过 generation-distillation 训练方法，利用大型 fine-tuned 语言模型生成无标签训练数据，通过知识蒸馏技术将这些数据的知识转移给小型网络，从而缩小了预先训练 LM 和小型特定任务模型之间的性能差距，实现了使用更少的参数（仅为 BERT 的 300 倍）达到与 BERT 可比的性能。

Jan, 2020

一个老师足矣？多个教师的预训练语言模型蒸馏

本文提出了一种多教师知识蒸馏框架 MT-BERT，可以从多个教师 PLMs 中训练高质量的学生模型，并在三个基准数据集上验证了其压缩 PLMs 的有效性。

Jun, 2021

蒸馏逐步！用更少的训练数据和更小的模型尺寸胜过更大的语言模型

本文介绍一种名为 “Distilling step-by-step” 的新机制，该机制通过在多任务训练框架内提取 LLM rationales 作为小型模型的附加监督来训练比 LLM 更小且表现更好的模型，并且使用远少于 finetuning 或 distillation 所需的标注数据。作者研究表明，相对于 finetuning 和 distillation，本机制使用更少的标注 / 非标注训练样例实现更好的性能；并且相对于 LLMs，使用明显更小的模型尺寸实现更好的性能；作者使用了 only 80% of available data on a benchmark task，就可以使用 770M T5 模型胜过 540B PaLM。

May, 2023

用未标记的转移数据将 BERT 蒸馏为简单的神经网络

该研究论文针对知识蒸馏在自然语言处理中预训练模型所遇到的问题，探讨利用领域内未标记的数据、有限的已标记数据和基于简单 RNN 模型的硬蒸馏方法解决师生模型间性能差异的问题。实验结果表明，使用软蒸馏和利用教师模型的中间表示，学生模型的性能可以进一步提高，而在低资源环境下，学生模型在保证与教师模型性能基本持平的情况下，可实现最多 26 倍的压缩比，针对多语言环境的扩展实验结果更是惊人。

Oct, 2019

ERNIE 3.0 Tiny: 简单而让人沮丧的方法提高任务无关的蒸馏泛化能力

提出了一种利用多任务学习的方法来缩小大型预训练语言模型和小型模型之间的泛化差距，使其能够在任务无关的场景下实现直接微调，并且表现相当。实验证明，这种方法产生了一个具有更好泛化性能的学生，显著优于现有基线方法，在任务无关蒸馏方面，该方法在相应的领域内、领域外和低资源数据集上，以及 SQuAD 和四个 GLUE 任务方面，甚至超过了 8 倍大的 BERT 模型。此外，通过结合 ERNIE 3.0，在 10 个中文数据集上获得了最新的实验结果。

Jan, 2023

关于蒸馏的令人惊讶的疗效作为替代预训练小模型的研究

我们提出了一种针对小模型的训练方法，不需要吸收预训练的成本，却能获得相同的性能，并且通过知识蒸馏与对比学习的连接，能够有效地降低计算成本，提高训练速度，同时通过数据增强进一步改善性能。

Apr, 2024

MKD：一种预训练语言模型的多任务知识蒸馏方法

本文提出了一种基于多任务学习的知识蒸馏方法，用于训练轻量级的预训练模型，该方法适用于不同的教师模型体系结构，并且相较于传统上基于 LSTM 的方法，具有更好的语言表达能力和更快的推理速度。

Nov, 2019

XtremeDistilTransformers：任务无关蒸馏中的任务转移

本文提出了一种任务不可知的知识蒸馏框架 ——XtremeDistilTransformers，利用任务特定方法学习出一个通用模型，可以应用于任意语言和任务，并研究了蒸馏过程中多个源任务、扩充资源和模型架构的可迁移性。在多项任务中验证了该模型的性能，并发布了三个蒸馏的任务不可知检查点，其中最小的检查点包含 1300 万个参数，实现了多项任务的 SOTA 表现。

Jun, 2021

任务感知分层蒸馏：语言模型压缩的 “减法即增益

本研究提出一种名为 TED 的任务感知分层蒸馏方法，通过使用任务感知滤波器，选取有用于目标任务的知识来减小知识差距，从而在学生和教师之间减小知识差距并帮助学生更好地适应目标任务，在连续预训练和微调的两种情况下，TED 都比现有的蒸馏方法表现出明显且一致的改进。

Oct, 2022