ACLJun, 2021

边际效用递减:探究 BERT 知识蒸馏的最少知识要求

TL;DR本文提出了一种高效的知识蒸馏方法,能够压缩 BERT 模型而无需加载教师模型,并能够实现训练加速 2.7x ~ 3.4x。通过将 BERT 的隐藏知识分为深度、长度和宽度三个维度,该方法能够提取和蒸馏关键的隐藏状态知识,从而实现与大量蒸馏相同的性能提升。