EMNLPSep, 2020
对中间表示进行对比蒸馏,用于语言模型压缩
Contrastive Distillation on Intermediate Representations for Language Model Compression
Siqi Sun, Zhe Gan, Yu Cheng, Yuwei Fang, Shuohang Wang...
TL;DR本研究提出了一种基于中间层对比蒸馏的知识蒸馏框架(CoDIR),通过区分正样本和大量负样本,使学生模型通过中间层更好地提取和压缩教师模型的知识,该方法在 GLUE 基准测试中表现优异。