预训练语言模型的梯度知识蒸馏
利用领域间的可转移知识,我们提出了一种元知识蒸馏 (Meta-KD) 框架,将初始的深度预训练模型压缩为体积更小的单域学生模型,并在多个 NLP 任务上进行了实验验证。
Dec, 2020
本文研究知识蒸馏的动态方法是否能根据学生模型的能力,对三个方面进行调整,包括教师模型的采用,数据选择和蒸馏目标的调整,实验结果表明,动态知识蒸馏是有前途的,并提供了关于更有效KD方法的未来方向的讨论。
Sep, 2021
本文提出一种参数高效、学生友好的知识蒸馏方法PESF-KD,通过更新相对较少的参数,实现高效、充分的知识转移,其中引入了适配器模块,将教师的输出转化为合适平滑度的软标签。实验表明,与在线蒸馏方法相比,PESF-KD 能够显著降低培训成本,同时获得有竞争力的结果。
May, 2022
该论文提出了一种新的知识蒸馏方法,通过在教师模型与学生模型差异较大的地方提取知识,在生成新的辅助样本的过程中改善学生模型的性能,从而使教师模型与学生模型更加匹配。这种方法在自然语言处理和计算机视觉等领域得到了良好的实验结果。
Jan, 2023
本文提出了一种基于演员-评论家方法的知识蒸馏框架,旨在从教师模型中选择适当的知识来训练学生模型,实验结果表明该方法在GLUE数据集上优于常规基线模型。
Feb, 2023
本文提出了一种基于Integrated Gradients的新颖的归因驱动知识蒸馏方法,它探索了教师模型背后的token-level解释,并将知识转移给学生模型,进一步探索了多视角归因蒸馏。实验证明我们的方法在GLUE基准测试中具有比其他现有方法更好的性能。
May, 2023
本论文提出了一种推广的知识蒸馏方法,旨在解决在训练和生成阶段输出序列之间的差异,并通过优化替代的发散方法来处理模型不充分的问题。实验证明,Generalized Knowledge Distillation (GKD) 在压缩生成语言模型时表现优异。
Jun, 2023
通过交互式通信过程扩展了知识蒸馏技术,帮助下游任务的学生有效地从预训练的基础模型中学习,并在基准数据集上进行实验证明我们的通信机制优于最先进的蒸馏技术。
Oct, 2023
本文解决了大型语言模型(LLMs)知识蒸馏在预训练阶段的应用问题。提出了名为预训练蒸馏(PD)的新方法,并通过系统的设计空间探索,发现更有效的配置,尤其是较大的学生模型在预训练蒸馏中受益更多。此研究为未来的预训练蒸馏实践提供了指导。
Oct, 2024