Feb, 2023

通过知识选择改进预训练语言模型的知识蒸馏

TL;DR本文提出了一种基于演员-评论家方法的知识蒸馏框架,旨在从教师模型中选择适当的知识来训练学生模型,实验结果表明该方法在GLUE数据集上优于常规基线模型。