Sep, 2021

语言模型压缩中的语言上下文提取

TL;DR本文提出了一种新的语言表示学习的知识蒸馏方法,通过单词关系和层变换关系传递上下文知识,无需限制教师和学生的架构变化,验证了该方法在语言理解任务的各种架构和DynaBERT等自适应尺寸剪枝方法的挑战性基准上的有效性。