Jun, 2021
边际效用递减:探究BERT知识蒸馏的最少知识要求
Marginal Utility Diminishes: Exploring the Minimum Knowledge for BERT
Knowledge Distillation
TL;DR本文提出了一种高效的知识蒸馏方法,能够压缩BERT模型而无需加载教师模型,并能够实现训练加速2.7x ~ 3.4x。通过将BERT的隐藏知识分为深度、长度和宽度三个维度,该方法能够提取和蒸馏关键的隐藏状态知识,从而实现与大量蒸馏相同的性能提升。