Sep, 2020

对中间表示进行对比蒸馏,用于语言模型压缩

TL;DR本研究提出了一种基于中间层对比蒸馏的知识蒸馏框架(CoDIR),通过区分正样本和大量负样本,使学生模型通过中间层更好地提取和压缩教师模型的知识,该方法在GLUE基准测试中表现优异。