Jun, 2021

一个老师足矣?多个教师的预训练语言模型蒸馏

TL;DR本文提出了一种多教师知识蒸馏框架MT-BERT,可以从多个教师PLMs中训练高质量的学生模型,并在三个基准数据集上验证了其压缩PLMs的有效性。