利用平行数据使低频词复苏 —— 非自回归翻译的最大化利用

ACLJun, 2021

利用平行数据使低频词复苏 —— 非自回归翻译的最大化利用

Rejuvenating Low-Frequency Words: Making the Most of Parallel Data in Non-Autoregressive Translation

Liang Ding, Longyue Wang, Xuebo Liu, Derek F. Wong, Dacheng Tao...

TL;DR通过知识蒸馏可以构建合成数据用于训练非自回归翻译模型，但由于合成数据与原始数据之间的低频词差异，容易导致低频词预测错误，在此基础上，我们通过使用逆向蒸馏等方法改善训练策略，提高非自回归翻译模型的翻译性能和低频词预测准确率。

Abstract

knowledge distillation (KD) is commonly used to construct synthetic data for training non-autoregressive translation (NAT) models. However, there exists a discrepancy on →

knowledge distillation non-autoregressive translation low-frequency words reverse kd training strategy

发现论文，激发创造

了解和改善非自回归翻译中的词汇选择

本文通过知识蒸馏的方式训练非自回归翻译模型，并指出在低频词方面，自回归模型的词汇选择误差会传递给非自回归模型，同时提出了一个额外的 KL 散度项以减少低频词方面的词汇选择误差并通过实验验证了其有效性和普适性。

Dec, 2020

非自回归机器翻译中的知识蒸馏理解

本文通过实验发现，知识蒸馏可以降低数据集的复杂度，帮助非自回归机器翻译模型 NART 更好地建模输出的变化，提高翻译质量，并提出多种方法来调整数据集复杂度以改进 NAT 模型的性能，达到了最先进的性能水平。

Nov, 2019

邻居不是陌生人：在低频词汇限制下改进非自回归翻译

该研究探讨了非自回归翻译方法中因最近度高而导致的限制条件处理不良的问题，并提出一种基于 source-side context 的插件算法，即 Aligned Constrained Training，来提高翻译品质，尤其针对一些不常见的限制条件。

Apr, 2022

非自回归神经机器翻译的选择性知识蒸馏

本文提出了一种选择性知识蒸馏技术，通过 NAT 评估器选择高质量且易于学习的 NAT 友好目标，并引入简单而有效的渐进式蒸馏方法来提高 NAT 性能，在多个 WMT 语言方向和多个代表性 NAT 模型上进行实验。结果表明，我们的方法可以实现训练数据的质量和复杂性之间的灵活权衡，取得了出色的性能。进一步的分析表明，只通过 5% 的原始翻译数据，就可以使 NAT 在 BLEU 值上比原始数据训练的对手高出约 2.4 BLEU。

Mar, 2023

利用对比学习优化非自回归变换器

本文提出了一种基于 DA-Transformer 模型和从模型分布中采点的对比约束的非自回归 Transformer 模型，通过这种方式减轻模态学习的难度，取得了在机器翻译，文本摘要和改写等多个基准数据集中显著的最新非自回归 Transformer 模型的性能。

May, 2023

端到端语音翻译的源目标双向知识蒸馏

本文提出了一种基于知识蒸馏的方法来提高端到端语音翻译模型的性能，并探讨了正反向模型、自回归和非自回归模型下的性能提升情况。

Apr, 2021

蒸馏数据复杂度如何影响非自回归机器翻译的质量和置信度？

研究表明，非自回归模型在机器翻译中表现良好，但由于其需要从自回归模型中提炼知识，受到了一定的限制。本文针对这个问题进行了研究，通过实验发现，虽然减少词汇多样性和减少重新排序复杂性都有助于 NAR 学习更好的源和目标之间的对齐关系，从而提高翻译质量，但是词汇多样性是提炼增加模型置信度的主要原因，并会对不同的 NAR 模型产生不同的影响。

May, 2021

使用扰动长度感知位置编码进行非自回归神经机器翻译

本文提出了一种采用扰动的长度感知位置编码的序列级知识蒸馏方法，并将其应用于学生模型 Levenshtein Transformer 中，以提高非自回归神经机器翻译的翻译效果。实验结果表明，该方法在 WMT14 德语到英语翻译中相较传统方法提升了最大 BLEU 值 2.5 点，但输出的句子长度更长。

Jul, 2021

为非自回归神经机器翻译检索连续信息

本论文提出了两种增强 Non-Autoregressive Transformer (NAT) 翻译能力的方法：一种基于一种新的强化学习算法的序列级训练方法，叫做 Reinforce-NAT；还有一种名为 FS-decoder 的新型 Transformer 解码器，可以将目标顺序信息融合到解码器的顶层中。实验结果表明，Reinforce-NAT 在三个翻译任务上的表现优于基线模型 NAT，FS-decoder 的翻译性能与自回归 Transformer 相当，但速度更快。

Jun, 2019

非自回归神经机器翻译的任务级课程学习

本研究提出了一种训练曲线，通过任务级别的课程学习（TCL-NAT）将模型训练从更简单的自回归翻译（AT）任务平滑转移到困难的非自回归翻译（NAT）任务，其中引入了中间任务 - 半自回归翻译（SAT），可以通过调整参数 k，平衡翻译速度和准确性，达到在四个数据集上显著提高翻译准确性的效果。

Jul, 2020