有阅读素养的学生学习更好：关于预训练紧凑模型的重要性

Aug, 2019

有阅读素养的学生学习更好：关于预训练紧凑模型的重要性

Well-Read Students Learn Better: The Impact of Student Initialization on Knowledge Distillation

Iulia Turc, Ming-Wei Chang, Kenton Lee, Kristina Toutanova

TL;DR本文研究自然语言表示、模型压缩技术、预训练、微调和知识蒸馏等方面的互动关系，提出了一种简单而有效的预训练蒸馏算法，分析了模型大小和无标记任务数据属性对其的影响。

Abstract

Recent developments in NLP have been accompanied by large, expensive models. knowledge distillation is the standard method to realize these gains in applications with limited resources: a compact student is trained to recover the outputs of a powerful teacher. While most prior work inv

发现论文，激发创造

用未标记的转移数据将BERT蒸馏为简单的神经网络

该研究论文针对知识蒸馏在自然语言处理中预训练模型所遇到的问题，探讨利用领域内未标记的数据、有限的已标记数据和基于简单RNN模型的硬蒸馏方法解决师生模型间性能差异的问题。实验结果表明，使用软蒸馏和利用教师模型的中间表示，学生模型的性能可以进一步提高，而在低资源环境下，学生模型在保证与教师模型性能基本持平的情况下，可实现最多26倍的压缩比，针对多语言环境的扩展实验结果更是惊人。

Oct, 2019

知识蒸馏真的有效么？

研究表明，尽管知识蒸馏有助于学生网络提高推理能力，但通常情况下并不能完全符合教师模型的预测分布，而这往往是由于优化困难所导致的。此外，数据集的细节也影响着知识蒸馏的效果，更符合教师的结果不一定会带来更好的推理能力。

Jun, 2021

知识蒸馏传递集及其对下游NLU任务的影响

本文研究了采用不同数据集训练的应用领域教师和泛化语言模型辅导学生学习的关系，并发现即使存在较高噪声，使用应用领域数据进行辅导仍然比使用泛化数据表现更好。

Oct, 2022

授课老师在蒸馏中的偏差：违抗是否值得？

通过一系列的实验，我们发现知识蒸馏(distillation)在教师网络存在低置信度的点的时候，会使得学生网络的置信度更低，而之后引入知识蒸馏(loss)会恢复部分性能，同时我们提供了两种理论视角来理解这种现象，作为特征空间的正则化项和梯度去噪器。

Jan, 2023

基于伪目标训练的语言生成知识蒸馏系统研究

研究自然语言生成（NLG）中的知识蒸馏技术优化模型并生成具体的文本任务，提出伪目标（PT）数据增强方法并应用于双方产生的多个PT的词级KD，从而有效地压缩模型。

May, 2023

学生大型语言模型是否能和老师一样表现出色？

深度学习模型、知识蒸馏、软标签、温度缩放和模型性能在知识蒸馏中的关键决定因素及其潜力。

Oct, 2023

句级别还是词级别？关于知识蒸馏的综合研究

通过改进的混合方法，将知识蒸馏技术应用于神经机器翻译，以在不同的情境中提高模型性能和压缩模型。

Apr, 2024

特权学生：关于多语言知识蒸馏中初始化价值的研究

我们调查了知识蒸馏在多语言环境中的价值和模型初始化方法，发现通过将教师模型的权重直接复制到学生模型来增强初始化对于各种多语言环境中的模型初始化最为重要，并证明了高效的权重初始化在低资源场景下仍能保留多语言能力。

Jun, 2024

高效的知识蒸馏：利用教师模型洞察力增强小型语言模型

本研究解决了小型语言模型在实际应用中面临的性能提升问题。我们提出了一种简单有效的知识蒸馏方法，通过分析教师模型的重要令牌，帮助学生模型更好地学习，从而显著提高了小型模型的性能，尤其在含有标签的多项选择题数据集上，68%的情况下提取的令牌是答案的组成部分。

Sep, 2024

大型语言模型的预训练蒸馏：设计空间探索

本文解决了大型语言模型（LLMs）知识蒸馏在预训练阶段的应用问题。提出了名为预训练蒸馏（PD）的新方法，并通过系统的设计空间探索，发现更有效的配置，尤其是较大的学生模型在预训练蒸馏中受益更多。此研究为未来的预训练蒸馏实践提供了指导。

Oct, 2024