提出一种多任务学习框架,加强非自回归神经机器翻译模型的学习信号并改进其准确性。实验证明该方法可以在不增加解码开销的情况下稳定提升多个非自回归基准模型的准确性。
Nov, 2022
本文对不自回归生成(NAR)进行了系统的调查,并比较和讨论了不同方面的各种非自回归翻译(NAT)模型,包括数据处理、建模方法、训练标准、解码算法以及受到预训练模型的好处,同时简要回顾了 NAR 模型在机器翻译以外的其他应用,并讨论了未来探索的潜在方向。
Apr, 2022
本研究对非自回归模型及自回归模型在机器翻译中的效率进行了探究,并提出了对非自回归模型的进一步实验和评测。
May, 2022
非自回归(NAR)语言模型在神经机器翻译(NMT)中以低延迟著称。然而,由于较大的解码空间和准确捕捉目标单词间的依赖关系的困难,在 NAR 模型和自回归模型之间存在性能差距。为了解决这些挑战,我们将强化学习(RL)应用于编辑型 NAR 模型的典型例子 Levenshtein Transformer,通过使用自生成的数据,证明 RL 可以提高编辑型 NAR 模型的性能。我们探索了两种 RL 方法:逐步奖励最大化和情节奖励最大化,讨论了这两种方法的优缺点并进行了实证验证。此外,我们在实验中研究了温度设置对性能的影响,确认正确的温度设置对 NAR 模型的训练的重要性。
May, 2024
本文对非自回归机器翻译模型进行了改进,通过使用额外的特征来提高连接时序分类(CTC)下的模型表达流畅性,并将其与波束搜索解码相结合,仍能保持高速解码能力,具有与自回归模型相媲美的 BLEU 分数。
Apr, 2020
本文提出了基于仿真学习的非自回归机器翻译框架,该框架仍然具有快速翻译速度但与其自回归对应方法相比具有可比较的翻译性能。通过对 IWSLT16、WMT14 和 WMT16 数据集进行实验,发现我们提出的模型在保持翻译质量可比的同时,比自回归模型有更快的翻译速度。在推断时并行采样句子长度,WMT16 Ro→En 的 BLEU 值达到 31.85,而 IWSLT16 En→De 的 BLEU 值为 30.68。
Jun, 2019
本研究提出了一种新颖的通用协作学习方法 DCMCL,在这种方法中,自回归模型(AR)和非自回归模型(NAR)被视为协作者,通过令牌级相互学习和序列级对比学习,在两种模型之间层次化地利用双向语境信息。广泛的实验结果表明,所提出的 DCMCL 方法可以同时改进 AR 和 NAR 模型的性能,分别提高了 1.38 和 2.98 个 BLEU 分数,并在 AR 和 NAR 解码方面也优于当前最佳统一模型,分别提高了 0.97 个 BLEU 分数。
Feb, 2024
该研究提出一种新的训练策略,使用最近邻作为 NAR 解码器的初始状态,并进行迭代编辑来改进文本生成质量,结果表明该方法在机器翻译和数据到文本任务上均获得了较高的翻译质量和更少的解码迭代次数。
Aug, 2022
该研究通过提出一种分析模型来表征 Non-autoregressive 模型生成不同序列任务的难易程度,并发现知识蒸馏和源 - 目标对齐技术可以帮助提升 Non-autoregressive 模型的准确性,减少目标序列的依赖性。
研究表明,非自回归模型在机器翻译中表现良好,但由于其需要从自回归模型中提炼知识,受到了一定的限制。本文针对这个问题进行了研究,通过实验发现,虽然减少词汇多样性和减少重新排序复杂性都有助于 NAR 学习更好的源和目标之间的对齐关系,从而提高翻译质量,但是词汇多样性是提炼增加模型置信度的主要原因,并会对不同的 NAR 模型产生不同的影响。
May, 2021