EMNLPSep, 2021
预训练语言模型的动态知识蒸馏
Dynamic Knowledge Distillation for Pre-trained Language Models
Lei Li, Yankai Lin, Shuhuai Ren, Peng Li, Jie Zhou...
TL;DR本文研究知识蒸馏的动态方法是否能根据学生模型的能力,对三个方面进行调整,包括教师模型的采用,数据选择和蒸馏目标的调整,实验结果表明,动态知识蒸馏是有前途的,并提供了关于更有效 KD 方法的未来方向的讨论。