通过伪平行数据增强无监督机器翻译
提出了一种基于单语语料的机器翻译方法,该方法使用深度学习技术将两种不同语言的句子映射到相同的潜在空间中,从而学习翻译而不使用任何标记数据,该方法在两种语言对的两个广泛使用的数据集上表现出色。
Oct, 2017
本研究提出了一种全新的方法,在没有平行数据的情况下,只利用单语数据即可训练 NMT 系统。这种基于注意力机制的编码器解码器模型结合去噪和回译技术, 在 WMT 2014 的法英和德英翻译中获得了 15.56 和 10.21 BLEU 分数,且能够利用少量的平行数据来提高翻译质量。
Oct, 2017
该研究研究了如何在只有大型单语语料库的情况下学习翻译。提出了两种模型,一种是神经模型,一种是基于短语的模型。这些模型通过参数的精心初始化、语言模型的去噪效应和反向迭代自动生成的并行数据来提高翻译性能。在 WMT'14 英语 - 法语和 WMT'16 德语 - 英语 基准测试上,这些模型分别获得 28.1 和 25.2 BLEU 分数,比现有方法的 BLEU 分数高出 11 个分数。方法在英语 - 乌尔都语和英语 - 罗马尼亚语等低资源语言中也取得了良好的结果。
Apr, 2018
本文研究了针对低资源稀有语种的无监督翻译问题,提出了一个三阶段训练方案的多语种模型,结合了单语和辅助并行数据,取得了明显优于当前无监督基准线的效果。
Sep, 2020
本研究提出了一种跨语言无监督神经机器翻译框架,利用来自高资源语言对的弱监督信号,以提高零资源翻译质量。该框架基于多语言模型,不需要对标准无监督神经机器翻译进行改动,实验结果表明使用该框架可以在六个基准无监督翻译方向上将翻译质量提高超过 3 个 BLEU 分数。
Apr, 2020
本文介绍一种半监督的方法来解决低资源语言机器翻译的问题,通过增强高质量的句子对和使用基于 SentenceBERT 的过滤器来提高数据质量,将交叉熵损失和 KL 散度相结合,特别是通过伪目标句子实现无监督训练,实验证明该方法可以显著提高 NMT 基线性能
Apr, 2023
本文提出一种简单但有效的方法,即将目标语句重新排序以匹配源语序,并将其作为另外一种训练时的监督信号,从而在模拟低资源日语 - 英语和真实低资源维吾尔 - 英语语种中获得显着改进。
Aug, 2019
本研究提出了一种以数据增强为基础的方法,针对低频词汇在合成的新语境中生成新的句子对,以提高神经机器翻译系统的翻译质量。在模拟低资源环境中的实验结果显示,相对于基准和回译方法,我们的方法能够提高翻译质量,最高可提高 2.9 BLEU 分数。
May, 2017
提出并实现了一种基于抽取 - 编辑方法的无监督神经机器翻译,与以往仅使用错误积累法的基准性方法相比,在多个语言对和领域(包括低资源语言)的实验中表现更加优异。
Apr, 2019
通过混合监督和自我监督目标的方法,实现了覆盖数百种语言的多语言机器翻译模型的构建,该方法可在零资源情况下生成高质量翻译,甚至超过低 - 中资源语言的监督翻译质量。
Jan, 2022