利用平行数据使低频词复苏 —— 非自回归翻译的最大化利用
本文通过知识蒸馏的方式训练非自回归翻译模型,并指出在低频词方面,自回归模型的词汇选择误差会传递给非自回归模型,同时提出了一个额外的 KL 散度项以减少低频词方面的词汇选择误差并通过实验验证了其有效性和普适性。
Dec, 2020
本文通过实验发现,知识蒸馏可以降低数据集的复杂度,帮助非自回归机器翻译模型 NART 更好地建模输出的变化,提高翻译质量,并提出多种方法来调整数据集复杂度以改进 NAT 模型的性能,达到了最先进的性能水平。
Nov, 2019
该研究探讨了非自回归翻译方法中因最近度高而导致的限制条件处理不良的问题,并提出一种基于 source-side context 的插件算法,即 Aligned Constrained Training,来提高翻译品质,尤其针对一些不常见的限制条件。
Apr, 2022
本文提出了一种选择性知识蒸馏技术,通过 NAT 评估器选择高质量且易于学习的 NAT 友好目标,并引入简单而有效的渐进式蒸馏方法来提高 NAT 性能,在多个 WMT 语言方向和多个代表性 NAT 模型上进行实验。结果表明,我们的方法可以实现训练数据的质量和复杂性之间的灵活权衡,取得了出色的性能。进一步的分析表明,只通过 5% 的原始翻译数据,就可以使 NAT 在 BLEU 值上比原始数据训练的对手高出约 2.4 BLEU。
Mar, 2023
本文提出了一种基于 DA-Transformer 模型和从模型分布中采点的对比约束的非自回归 Transformer 模型,通过这种方式减轻模态学习的难度,取得了在机器翻译,文本摘要和改写等多个基准数据集中显著的最新非自回归 Transformer 模型的性能。
May, 2023
研究表明,非自回归模型在机器翻译中表现良好,但由于其需要从自回归模型中提炼知识,受到了一定的限制。本文针对这个问题进行了研究,通过实验发现,虽然减少词汇多样性和减少重新排序复杂性都有助于 NAR 学习更好的源和目标之间的对齐关系,从而提高翻译质量,但是词汇多样性是提炼增加模型置信度的主要原因,并会对不同的 NAR 模型产生不同的影响。
May, 2021
本文提出了一种采用扰动的长度感知位置编码的序列级知识蒸馏方法,并将其应用于学生模型 Levenshtein Transformer 中,以提高非自回归神经机器翻译的翻译效果。实验结果表明,该方法在 WMT14 德语到英语翻译中相较传统方法提升了最大 BLEU 值 2.5 点,但输出的句子长度更长。
Jul, 2021
本论文提出了两种增强 Non-Autoregressive Transformer (NAT) 翻译能力的方法:一种基于一种新的强化学习算法的序列级训练方法,叫做 Reinforce-NAT;还有一种名为 FS-decoder 的新型 Transformer 解码器,可以将目标顺序信息融合到解码器的顶层中。实验结果表明,Reinforce-NAT 在三个翻译任务上的表现优于基线模型 NAT,FS-decoder 的翻译性能与自回归 Transformer 相当,但速度更快。
Jun, 2019
本研究提出了一种训练曲线,通过任务级别的课程学习(TCL-NAT)将模型训练从更简单的自回归翻译(AT)任务平滑转移到困难的非自回归翻译(NAT)任务,其中引入了中间任务 - 半自回归翻译(SAT),可以通过调整参数 k,平衡翻译速度和准确性,达到在四个数据集上显著提高翻译准确性的效果。
Jul, 2020