Jul, 2023

序列级知识蒸馏的f-分歧最小化

TL;DR我们提出了一个名为f-DISTILL的框架,将序列级别的知识蒸馏作为最小化广义f-分歧函数的过程,并显示现有的SeqKD和ENGINE方法是我们f-DISTILL方法的近似。通过在四个数据集上的实验,我们发现我们的方法优于现有的蒸馏方法,并且我们的对称蒸馏损失可以更好地促使学生从教师分布中学习。