ACLJul, 2023

序列级知识蒸馏的 f - 分歧最小化

TL;DR我们提出了一个名为 f-DISTILL 的框架,将序列级别的知识蒸馏作为最小化广义 f - 分歧函数的过程,并显示现有的 SeqKD 和 ENGINE 方法是我们 f-DISTILL 方法的近似。通过在四个数据集上的实验,我们发现我们的方法优于现有的蒸馏方法,并且我们的对称蒸馏损失可以更好地促使学生从教师分布中学习。