MixKD：大规模语言模型高效蒸馏

ICLRNov, 2020

MixKD: Towards Efficient Distillation of Large-scale Language Models

Kevin J Liang, Weituo Hao, Dinghan Shen, Yufan Zhou, Weizhu Chen...

TL;DR提出了一种利用 Mixup 数据扩充技术的数据不可知蒸馏框架 MixKD，大幅度降低了一些实践性问题的影响，提升了大规模语言模型的泛化能力，实现了比标准 KD 培训更好的性能表现，能用于低资源平台上的应用。

Abstract

large-scale language models have recently demonstrated impressive empirical performance. Nevertheless, the improved results are attained at the price of bigger models, more power consumption, and slower inference, which hinder their applicability to low-resource (both memory and comput

large-scale language models knowledge distillation mixkd data-agnostic distillation glue benchmark

发现论文，激发创造

大型语言模型的知识蒸馏

本文提出了一种名为 MiniLLM 的方法，该方法利用 Kullback-Leibler 散度，会防止学生模型过度估计教师分布的低概率区域，实现了从生成式语言模型中提取出更小的语言模型，该方法在指令遵循情况下进行了广泛的实验，证明了 MiniLLM 模型的性能表现更佳。

Jun, 2023

MKD：一种预训练语言模型的多任务知识蒸馏方法

本文提出了一种基于多任务学习的知识蒸馏方法，用于训练轻量级的预训练模型，该方法适用于不同的教师模型体系结构，并且相较于传统上基于 LSTM 的方法，具有更好的语言表达能力和更快的推理速度。

Nov, 2019

GKD: 一种大规模预训练语言模型的通用知识蒸馏框架

提出 GKD 框架，支持在内存受限的 GPU 上使用各种蒸馏方法，以支持至少 100B 规模的 PLMs 的蒸馏，可在单个框架内轻松切换和组合不同的蒸馏方法。

Jun, 2023

Meta-KD: 跨领域语言模型压缩的元知识蒸馏框架

利用领域间的可转移知识，我们提出了一种元知识蒸馏 (Meta-KD) 框架，将初始的深度预训练模型压缩为体积更小的单域学生模型，并在多个 NLP 任务上进行了实验验证。

Dec, 2020

预训练语言模型的梯度知识蒸馏

本文提出了一种新的知识蒸馏方法（GKD），通过引入梯度对齐这一重要的知识源，以提高预训练语言模型的学生模型的性能和可解释性。实验结果表明，使用 GKD 比先前的知识蒸馏方法效果更好。

Nov, 2022

利用神经网络中的反向传播知识改进知识蒸馏

该论文提出了一种新的知识蒸馏方法，通过在教师模型与学生模型差异较大的地方提取知识，在生成新的辅助样本的过程中改善学生模型的性能，从而使教师模型与学生模型更加匹配。这种方法在自然语言处理和计算机视觉等领域得到了良好的实验结果。

Jan, 2023

PromptKD：通过提示调整深度语言模型来提供适合学生的知识

最近大型语言模型（LLMs）的进展引发了对推断成本的担忧，加大了对模型压缩研究的需求。尽管知识蒸馏（KD）是一种突出的方法，但对于生成性语言模型（如 LLMs）的 KD 研究相对较少，而在分类模型的 KD 中表现出有希望的学生友好知识蒸馏方法在生成性语言模型中尚未被探索。为了探索这种方法，我们提出了 PromptKD，一种简单而有效的方法，利用首次使用的提示调整方法在 KD 中实现生成性语言模型的学生友好知识转移。与需要对整个教师模型进行微调以提取学生友好知识的分类作品不同，PromptKD 通过添加少量的提示符令牌并仅调整提示来实现类似效果，并在学生的指导下进行。在使用 GPT-2 模型系列对遵循指令的数据集进行的广泛实验表明，PromptKD 实现了最先进的性能，并且仅添加了教师参数的 0.0007％作为提示。进一步的分析表明，蒸馏学生友好的知识有效地减轻了整个训练过程中的曝光偏差，从而提高了性能。

Feb, 2024

预训练语言模型的动态知识蒸馏

本文研究知识蒸馏的动态方法是否能根据学生模型的能力，对三个方面进行调整，包括教师模型的采用，数据选择和蒸馏目标的调整，实验结果表明，动态知识蒸馏是有前途的，并提供了关于更有效 KD 方法的未来方向的讨论。

Sep, 2021

比较性知识蒸馏

在大规模预训练模型时代，知识蒸馏在保持性能的同时，将计算重的教师模型的智慧转移到轻量高效的学生模型中起到了重要作用。然而，传统的知识蒸馏假设经常对教师模型进行推理，这与成本高昂且往往是专有的大规模模型的现实越来越不符。针对这一问题，本文提出了面向少教师推理知识蒸馏（FTI KD）的方法，旨在减少对教师模型推理的依赖。本文观察到，当前的知识蒸馏技术和最先进的数据增强策略在这种受限环境下效果不佳。我们从强调通过对比学习的教育原则中汲取灵感，提出了比较式知识蒸馏（CKD），它鼓励学生模型理解教师模型对样本解释的微妙差异，并为学生提供额外的学习信号，而无需进行额外的教师调用。此外，我们将 CKD 原理扩展到样本组，从有限的教师调用中实现更高效的学习。在各种实验设置下的实证评估表明，CKD 始终优于最先进的数据增强和知识蒸馏技术。

Nov, 2023

自回归语言模型的知识蒸馏再探讨

通过分析发现大型语言模型在教学学生模型时会导致性能下降，设计了一种自适应教学方法（ATKD）来改进知识蒸馏，并通过大量实验验证其在各种模型类型和规模上均能显著提高性能（平均得分增加至多 + 3.04%）。更重要的是，ATKD 能有效改善学生模型的泛化能力。

Feb, 2024