AAAINov, 2022

SKDBERT: 基于随机知识蒸馏的 BERT 压缩

TL;DR本文提出了随机知识蒸馏(SKD)算法用于获得紧凑的 BERT 风格语言模型,同时在多个教师模型的帮助下提高了知识蒸馏的效力,实验结果表明 SKDBERT 在保持 99.5% 语言理解准确度的同时,压缩了 BERT_BASE 模型 40% 的大小且速度提升 100%。