Apr, 2021

退火知识蒸馏

TL;DR本文介绍了一种名为 Annealing-KD 的改进型知识蒸馏方法,通过渐进式地提供教师模型提供的丰富信息来训练更小的学生模型,从而使得知识蒸馏方法在训练力度较大的学生模型时更有效。作者在不同的任务上进行了实验验证,包括图像分类和自然语言推理等。