ACLJun, 2021
边际效用递减:探究 BERT 知识蒸馏的最少知识要求
Marginal Utility Diminishes: Exploring the Minimum Knowledge for BERT Knowledge Distillation
Yuanxin Liu, Fandong Meng, Zheng Lin, Weiping Wang, Jie Zhou
TL;DR本文提出了一种高效的知识蒸馏方法,能够压缩 BERT 模型而无需加载教师模型,并能够实现训练加速 2.7x ~ 3.4x。通过将 BERT 的隐藏知识分为深度、长度和宽度三个维度,该方法能够提取和蒸馏关键的隐藏状态知识,从而实现与大量蒸馏相同的性能提升。