硬门知识蒸馏——利用校准实现强韧可靠的语言模型

Oct, 2022

硬门知识蒸馏——利用校准实现强韧可靠的语言模型

Hard Gate Knowledge Distillation -- Leverage Calibration for Robust and Reliable Language Model

Dongkyu Lee, Zhiliang Tian, Yingxiu Zhao, Ka Chun Cheung, Nevin L. Zhang

TL;DR在知识蒸馏中，我们探索了一个很少被关注的问题：什么时候蒸馏知识？我们提出了模型校准的概念，将教师模型视为不仅提供知识的源头，而且作为检测学生模型失调的一个标尺。这种新颖的观点导致了一个硬门控知识蒸馏方案，可以在教师模型和训练数据之间进行学习，并在自然语言生成的上下文中进行了检验。实证比较表明，硬门控知识蒸馏不仅提高了模型的泛化性能，而且显著降低了模型的校准误差。

Abstract

In knowledge distillation, a student model is trained with supervisions from both knowledge from a teacher and observations drawn from a training data distribution. Knowledge of a teacher is considered a subject that holds inter-class relations which send a meaningful supervision to a

发现论文，激发创造

神经语言模型的一致性蒸馏架构

本研究探讨了一种Knowledge Distillation的新方法，即从神经网络和词汇知识库中提取语言信息，以提供大规模模型的高效替代方案，并提出了两种基于多个teacher networks预测权重的技术以及一种用于词义消歧的方法，并发现使用本文中的词汇预训练方法可在不增加参数的情况下提高自然语言理解任务(NLU)的性能，同时在Plagiarism Detection方面也有了更好的表现。

Jan, 2023

通过知识选择改进预训练语言模型的知识蒸馏

本文提出了一种基于演员-评论家方法的知识蒸馏框架，旨在从教师模型中选择适当的知识来训练学生模型，实验结果表明该方法在GLUE数据集上优于常规基线模型。

Feb, 2023

基于伪目标训练的语言生成知识蒸馏系统研究

研究自然语言生成（NLG）中的知识蒸馏技术优化模型并生成具体的文本任务，提出伪目标（PT）数据增强方法并应用于双方产生的多个PT的词级KD，从而有效地压缩模型。

May, 2023

使用领域针对性数据增强来提升知识蒸馏的鲁棒性

本文介绍了一种基于知识蒸馏的方法和使用语言模型创建任务特定无标签数据增强来提高模型在NLI任务中的性能，在out-of-distribution方面的表现超过以前的方法。通过Distilled Minority Upsampling来鲁棒性提高了SNLI-hard的表现。

May, 2023

学生大型语言模型是否能和老师一样表现出色？

深度学习模型、知识蒸馏、软标签、温度缩放和模型性能在知识蒸馏中的关键决定因素及其潜力。

Oct, 2023

DistiLLM：面向大型语言模型的精简蒸馏

DistiLLM是一种更有效和高效的知识蒸馏框架，适用于自回归语言模型，通过引入倾斜的Kullback-Leibler散度损失和自适应的离策略方法，构建高性能的学生模型，并相较于最近的知识蒸馏方法获得最高4.3倍的加速比。

Feb, 2024

句级别还是词级别？关于知识蒸馏的综合研究

通过改进的混合方法，将知识蒸馏技术应用于神经机器翻译，以在不同的情境中提高模型性能和压缩模型。

Apr, 2024

大型语言模型的知识蒸馏综述：方法、评估与应用

这篇论文通过从方法、评估和应用三个方面对专门针对大型语言模型的知识蒸馏技术进行了全面调查，将方法分为白盒知识蒸馏和黑盒知识蒸馏，并探讨了不同蒸馏方法之间的评估任务和蒸馏效果，并提出了未来研究的方向。通过深入了解最新进展和实际应用，这篇综述为研究人员提供了有价值的资源，为这一领域的持续进展铺平了道路。

Jul, 2024

通过高效可信的蒸馏教导可靠的大型语言模型

本研究针对当前大型语言模型（LLM）在信任度上存在的不足，提出了一种新的方法——高效可信蒸馏（FIRST），旨在解决因微调引起的错误校准问题。通过利用老师模型的部分“集中知识”，该方法在成本效益上显著提高了模型的准确度和可信度，实验结果显示准确度提升2.3%，错误校准降低10%。

Aug, 2024

高效的知识蒸馏：利用教师模型洞察力增强小型语言模型

本研究解决了小型语言模型在实际应用中面临的性能提升问题。我们提出了一种简单有效的知识蒸馏方法，通过分析教师模型的重要令牌，帮助学生模型更好地学习，从而显著提高了小型模型的性能，尤其在含有标签的多项选择题数据集上，68%的情况下提取的令牌是答案的组成部分。

Sep, 2024