ACLJun, 2021

一个老师足矣?多个教师的预训练语言模型蒸馏

TL;DR本文提出了一种多教师知识蒸馏框架 MT-BERT,可以从多个教师 PLMs 中训练高质量的学生模型,并在三个基准数据集上验证了其压缩 PLMs 的有效性。