终身语言知识蒸馏

EMNLPOct, 2020

Lifelong Language Knowledge Distillation

Yung-Sung Chuang, Shang-Yu Su, Yun-Nung Chen

TL;DR提出了一种名为 Lifelong Language Knowledge Distillation（L2KD）的方法来解决流式任务（stream of different tasks） LLL 中的性能降低问题，通过一个教师模型来将新任务的知识通过知识蒸馏的方式传递给现有的 LLL 模型，从而使得 LLL 模型可以更好地适应新任务，同时保留先前学习到的知识。该方法的实验证明，L2KD 在 LLL 任务的顺序生成和文本分类方面比之前的最先进模型有着不俗的表现，并且在与 multi-task 模型性能对比方面，L2KD 均获得了显著提升。

Abstract

It is challenging to perform lifelong language learning (LLL) on a stream of different tasks without any performance degradation comparing to the multi-task counterparts. To address this issue, we present Lifelong Language Knowledge Distillation (L2KD), a simple but efficient method th

lifelong language learning knowledge distillation multi-task learning adaptation text classification

发现论文，激发创造

MKD：一种预训练语言模型的多任务知识蒸馏方法

本文提出了一种基于多任务学习的知识蒸馏方法，用于训练轻量级的预训练模型，该方法适用于不同的教师模型体系结构，并且相较于传统上基于 LSTM 的方法，具有更好的语言表达能力和更快的推理速度。

Nov, 2019

基于知识蒸馏的多语言神经机器翻译的终身学习

研究多语言神经机器翻译中的灾难性遗忘问题，并提出基于知识蒸馏的生命周期学习方法，以应对其面临的问题。实验结果显示，该方法能够更好地巩固以前的知识并显著减轻问题。

Dec, 2022

大型语言模型的知识蒸馏

本文提出了一种名为 MiniLLM 的方法，该方法利用 Kullback-Leibler 散度，会防止学生模型过度估计教师分布的低概率区域，实现了从生成式语言模型中提取出更小的语言模型，该方法在指令遵循情况下进行了广泛的实验，证明了 MiniLLM 模型的性能表现更佳。

Jun, 2023

多阶段均衡蒸馏：解决序列级知识蒸馏中的长尾挑战

大语言模型（LLMs）在各种自然语言处理任务中有了显著的进展，但部署仍然需要大量的计算资源。我们介绍了一种名为 Multi-Stage Balanced Distillation（BalDistill）的框架，通过在固定的计算资源预算内动态选择代表性的正样本和合成尾部样本，平衡训练数据，并在各种长尾数据集上取得了最先进的性能，提高了蒸馏模型的效率和效果。

Jun, 2024

学生大型语言模型是否能和老师一样表现出色？

深度学习模型、知识蒸馏、软标签、温度缩放和模型性能在知识蒸馏中的关键决定因素及其潜力。

Oct, 2023

运用大型语言模型和主动学习演化知识蒸馏

提出了 EvoKD：演化知識蒸餾方法，利用主動學習的概念提升大型語言模型的數據生成過程，同時改善小型領域模型的任務能力。實驗和分析表明 EvoKD 在不同的自然語言處理任務，如文本分類和命名實體識別方面具有有效性。

Mar, 2024

大型语言模型的多阶段协作知识蒸馏

我们提出了一种多阶段协同知识蒸馏方法，用于稀缺标记数据的半监督序列预测任务，通过从提示的大型语言模型中蒸馏出的学生模型，在特定任务上能够更好地泛化，且在两个句法分析任务上表现出了优势。

Nov, 2023

MixKD：大规模语言模型高效蒸馏

提出了一种利用 Mixup 数据扩充技术的数据不可知蒸馏框架 MixKD，大幅度降低了一些实践性问题的影响，提升了大规模语言模型的泛化能力，实现了比标准 KD 培训更好的性能表现，能用于低资源平台上的应用。

Nov, 2020

DistiLLM：面向大型语言模型的精简蒸馏

DistiLLM 是一种更有效和高效的知识蒸馏框架，适用于自回归语言模型，通过引入倾斜的 Kullback-Leibler 散度损失和自适应的离策略方法，构建高性能的学生模型，并相较于最近的知识蒸馏方法获得最高 4.3 倍的加速比。

Feb, 2024

通过知识选择改进预训练语言模型的知识蒸馏

本文提出了一种基于演员 - 评论家方法的知识蒸馏框架，旨在从教师模型中选择适当的知识来训练学生模型，实验结果表明该方法在 GLUE 数据集上优于常规基线模型。

Feb, 2023