ACLJun, 2021

利用平行数据使低频词复苏 —— 非自回归翻译的最大化利用

TL;DR通过知识蒸馏可以构建合成数据用于训练非自回归翻译模型,但由于合成数据与原始数据之间的低频词差异,容易导致低频词预测错误,在此基础上,我们通过使用逆向蒸馏等方法改善训练策略,提高非自回归翻译模型的翻译性能和低频词预测准确率。