Sep, 2021

预训练语言模型的动态知识蒸馏

TL;DR本文研究知识蒸馏的动态方法是否能根据学生模型的能力,对三个方面进行调整,包括教师模型的采用,数据选择和蒸馏目标的调整,实验结果表明,动态知识蒸馏是有前途的,并提供了关于更有效KD方法的未来方向的讨论。