ACLJun, 2021

BERT 学会教学:元学习的知识蒸馏

TL;DR本研究提出了用元学习结合知识蒸馏的方法(MetaDistil),可以在固定教师网络期间更好地向学生网络转移知识。在多个实验基准上,MetaDistil 可以比传统的知识蒸馏算法产生更显著的改进,并且对不同的学生容量和超参数的选择不太敏感,有助于在不同的任务和模型上使用知识蒸馏。