ICLRDec, 2020

了解和改善非自回归翻译中的词汇选择

TL;DR本文通过知识蒸馏的方式训练非自回归翻译模型,并指出在低频词方面,自回归模型的词汇选择误差会传递给非自回归模型,同时提出了一个额外的 KL 散度项以减少低频词方面的词汇选择误差并通过实验验证了其有效性和普适性。