EMNLPAug, 2019

BERT 模型压缩的患者知识蒸馏

TL;DR本研究提出了病人知识蒸馏方法,将原始大模型(老师)压缩成同样有效的轻型浅层网络(学生),以缓解大规模模型训练中的计算资源需求,并在多个 NLP 任务中获得改进的结果和培养效率的显著提高。