May, 2023

基于 n-best 重排序的精准知识蒸馏

TL;DR在 WMT21 德英翻译任务上,我们提出了一种通过 n-best 重新排序来扩展顺序级知识蒸馏的方法,以考虑不仅仅是第一顶假设,而且还要考虑教师模型的前 n 个顶假设,利用一组多样化的模型,包括公开可用的大型预训练模型,为训练学生模型提供更准确的伪标签,使得学生模型的参数数量要少几个数量级,但是可以获得与 Tran 等人使用 47 亿个参数的大型转换模型相当的准确性。