COLINGFeb, 2024

Sinkhorn 距离最小化的知识蒸馏

TL;DR通过 Sinkhorn 知识蒸馏方法,克服了传统教师 - 学生模式中 Kullback-Leibler 散度的模型坍缩、反 Kullback-Leibler 散度的模型平均以及 Jensen-Shannon 散度的模型低估等问题,有效地压缩大型语言模型并在多样的自然语言处理任务中取得了优越性能。