预训练语言模型的动态知识蒸馏
本文提出一种参数高效、学生友好的知识蒸馏方法PESF-KD,通过更新相对较少的参数,实现高效、充分的知识转移,其中引入了适配器模块,将教师的输出转化为合适平滑度的软标签。实验表明,与在线蒸馏方法相比,PESF-KD 能够显著降低培训成本,同时获得有竞争力的结果。
May, 2022
本文提出了一种新的知识蒸馏方法(GKD),通过引入梯度对齐这一重要的知识源,以提高预训练语言模型的学生模型的性能和可解释性。实验结果表明,使用GKD比先前的知识蒸馏方法效果更好。
Nov, 2022
本文提出了一种基于演员-评论家方法的知识蒸馏框架,旨在从教师模型中选择适当的知识来训练学生模型,实验结果表明该方法在GLUE数据集上优于常规基线模型。
Feb, 2023
在大规模预训练模型时代,知识蒸馏在保持性能的同时,将计算重的教师模型的智慧转移到轻量高效的学生模型中起到了重要作用。然而,传统的知识蒸馏假设经常对教师模型进行推理,这与成本高昂且往往是专有的大规模模型的现实越来越不符。针对这一问题,本文提出了面向少教师推理知识蒸馏(FTI KD)的方法,旨在减少对教师模型推理的依赖。本文观察到,当前的知识蒸馏技术和最先进的数据增强策略在这种受限环境下效果不佳。我们从强调通过对比学习的教育原则中汲取灵感,提出了比较式知识蒸馏(CKD),它鼓励学生模型理解教师模型对样本解释的微妙差异,并为学生提供额外的学习信号,而无需进行额外的教师调用。此外,我们将CKD原理扩展到样本组,从有限的教师调用中实现更高效的学习。在各种实验设置下的实证评估表明,CKD始终优于最先进的数据增强和知识蒸馏技术。
Nov, 2023
DistiLLM是一种更有效和高效的知识蒸馏框架,适用于自回归语言模型,通过引入倾斜的Kullback-Leibler散度损失和自适应的离策略方法,构建高性能的学生模型,并相较于最近的知识蒸馏方法获得最高4.3倍的加速比。
Feb, 2024
通过分析发现大型语言模型在教学学生模型时会导致性能下降,设计了一种自适应教学方法(ATKD)来改进知识蒸馏,并通过大量实验验证其在各种模型类型和规模上均能显著提高性能(平均得分增加至多+3.04%)。更重要的是,ATKD能有效改善学生模型的泛化能力。
Feb, 2024
相对于基于标准语言模型(LM)的从头开始预训练,知识蒸馏(KD)需要额外进行一次前向传递,通常所用的教师模型大大超过目标学生模型。本研究比较了从头开始预训练与几种KD策略在计算资源和预训练数据方面的表现,结果发现虽然从头开始预训练与固定计算资源下的普通KD相媲美,但更复杂的KD策略,即TinyBERT和MiniLM,优于从头开始预训练。
Apr, 2024
本研究解决了知识蒸馏在自回归语言模型中,传统方法无法充分捕获教师模型行为的问题。我们提出的在线知识蒸馏(OKD)方法,通过教师模型与学生模型的同时训练,实现了动态适应,从而显著提升蒸馏效果。研究结果表明,OKD在多个生成数据集上超越了现有领先方法,并最大可将训练时间减少四倍。
Sep, 2024
本文解决了大型语言模型(LLMs)知识蒸馏在预训练阶段的应用问题。提出了名为预训练蒸馏(PD)的新方法,并通过系统的设计空间探索,发现更有效的配置,尤其是较大的学生模型在预训练蒸馏中受益更多。此研究为未来的预训练蒸馏实践提供了指导。
Oct, 2024