EMNLPOct, 2022

稀疏教师也可以拥有丰富的知识

TL;DR本研究提出一种稀疏教师策略,对于过度参数化的教师进行优化,以产生既有表现力又更容易为学生所理解的知识,实现了预训练语言模型的知识精炼。在 GLUE 基准测试上,经过广泛的实验,提出的远程控制器可提供高效的结果。