即使有深度学习和大规模语言建模的最新发展,对于低资源语言的机器翻译任务仍然是一个挑战。我们提出了一种训练策略,依赖于从单语语料库中挖掘的伪平行句对和从单语语料库中反向翻译的合成句对。我们尝试了不同的训练计划,并在基于仅反向翻译数据训练的基线上实现了高达 14.5 BLEU 分(从英语到乌克兰语)的改进。
Oct, 2023
本研究提出了一种全新的方法,在没有平行数据的情况下,只利用单语数据即可训练 NMT 系统。这种基于注意力机制的编码器解码器模型结合去噪和回译技术, 在 WMT 2014 的法英和德英翻译中获得了 15.56 和 10.21 BLEU 分数,且能够利用少量的平行数据来提高翻译质量。
Oct, 2017
本文旨在解决源语言文本资源匮乏时,因失衡的训练数据导致无监督神经机器翻译系统(UNMT)性能低下的问题,提出基于自训练机制的 UNMT 系统,实验证明了其比传统 UNMT 系统的性能更好。
Apr, 2020
采用无监督学习方法使用多语言 BERT 创建伪平行语料库以提高机器翻译性能,并在不同任务中获得显著提高。
Oct, 2020
本文提出了一种基于元学习的算法,通过调整预先训练的 back-translation 模型来生成伪平行数据,用于训练前向翻译模型,并在 WMT 数据集和多语言翻译中实现了显著的改进。
Feb, 2021
本研究运用强化学习方法,实现神经机器翻译中异质训练数据的有效生成和利用,提出课程学习框架,相比于传统方法,该方法展现出更好的表现和更强的数据泛化能力。
Feb, 2019
提出并实现了一种基于抽取 - 编辑方法的无监督神经机器翻译,与以往仅使用错误积累法的基准性方法相比,在多个语言对和领域(包括低资源语言)的实验中表现更加优异。
Apr, 2019
本研究提出了一种跨语言无监督神经机器翻译框架,利用来自高资源语言对的弱监督信号,以提高零资源翻译质量。该框架基于多语言模型,不需要对标准无监督神经机器翻译进行改动,实验结果表明使用该框架可以在六个基准无监督翻译方向上将翻译质量提高超过 3 个 BLEU 分数。
无监督神经机器翻译(UNMT)关注于提高无人翻译平行数据的 NMT 结果,但在突出其优势与分析除翻译准确性以外的输出方面,迄今为止还做得很少。我们聚焦于三种非常不同的语言,法语、古吉拉特语和哈萨克语,并使用不同程度的监督来训练双语 NMT 模型,并在高和低资源环境中,测量 NMT 输出的质量,并将生成的序列的词序和语义相似性与源语句和参考句子进行比较。我们还使用分层相关传播来评估源语句和目标语句对结果的贡献,并扩展了先前作品对 UNMT 范式的发现。
Dec, 2023
这篇论文介绍了一种使用合成的双语数据来训练无监督神经机器翻译系统的方法,并使用增量式的反向翻译方法来提高其性能。 在 WMT16 德英新闻翻译任务上,该方法在无监督机器翻译方面实现了新的技术水平。
Oct, 2018