提取和编辑:自监督神经机器翻译的备选方案
即使有深度学习和大规模语言建模的最新发展,对于低资源语言的机器翻译任务仍然是一个挑战。我们提出了一种训练策略,依赖于从单语语料库中挖掘的伪平行句对和从单语语料库中反向翻译的合成句对。我们尝试了不同的训练计划,并在基于仅反向翻译数据训练的基线上实现了高达 14.5 BLEU 分(从英语到乌克兰语)的改进。
Oct, 2023
本研究提出了一种全新的方法,在没有平行数据的情况下,只利用单语数据即可训练 NMT 系统。这种基于注意力机制的编码器解码器模型结合去噪和回译技术, 在 WMT 2014 的法英和德英翻译中获得了 15.56 和 10.21 BLEU 分数,且能够利用少量的平行数据来提高翻译质量。
Oct, 2017
提出了一种基于单语语料的机器翻译方法,该方法使用深度学习技术将两种不同语言的句子映射到相同的潜在空间中,从而学习翻译而不使用任何标记数据,该方法在两种语言对的两个广泛使用的数据集上表现出色。
Oct, 2017
该研究研究了如何在只有大型单语语料库的情况下学习翻译。提出了两种模型,一种是神经模型,一种是基于短语的模型。这些模型通过参数的精心初始化、语言模型的去噪效应和反向迭代自动生成的并行数据来提高翻译性能。在 WMT'14 英语 - 法语和 WMT'16 德语 - 英语 基准测试上,这些模型分别获得 28.1 和 25.2 BLEU 分数,比现有方法的 BLEU 分数高出 11 个分数。方法在英语 - 乌尔都语和英语 - 罗马尼亚语等低资源语言中也取得了良好的结果。
Apr, 2018
该论文提出了一种半监督的方法来训练神经机器翻译模型,该方法使用标记数据和未标记数据的拼接,通过一个自编码器重建单语语料库,从而利用源语言和目标语言的单语语料库以及双语平行语料库从而在中英数据集上取得了显著的性能提升。
Jun, 2016
本文针对现有无监督机器翻译存在的不足之处,通过利用子词信息、开发理论上有根据的无监督调优方法和引入联合优化程序等手段,改进了统计机器翻译系统,并将其用于初始化双 NMT 模型并进行后续微调,使无监督机器翻译的表现大幅度提升。在英德无监督机器翻译领域,改进后的 SMT 系统相较之前最好的无监督系统 BLEU 值提高了 5.5 个百分点,超过了当时的(监督)任务获胜者。
Feb, 2019
使用单语数据生成目标语反向翻译的有效方法能够提高神经机器翻译质量。本研究比较了几种方法生成合成源句子的效果,发现使用采样或噪声束搜索的反向翻译方法效果最好,并证实这种合成数据的训练信号强于束搜索或贪婪搜索的数据,同时也比较了它们与真实的平行语料库的效果,并研究了不同领域对它们的影响。最终,将这种方法扩展到数亿条单语数据,获得了 35 BLEU 的 WMT'14 英德测试集上的最新记录。
Aug, 2018
本文提出了一种基于 SMT 的新颖方法,通过跨语言嵌入映射从单语料库中诱导短语表,再将其与 N-gram 语言模型相结合,通过无监督超参数微调的变体来实现迭代反向翻译,并在 WMT 2014 中实现了超过 7-10 BLEU 点的改进,与监督 SMT 相比关闭了 2-5 BLEU 点的差距。
Sep, 2018
研究发现,采用无标记的反向翻译方法可以有效地从大量单语数据中生成平行句子,进而提高神经机器翻译的效果。该方法能够消除标记语境的需求,并在低资源的英越和英德神经机器翻译任务上表现出比标准方法和标记方法更好的性能。
Dec, 2019
通过利用自动化单元测试系统过滤掉无效翻译从而创建一个完全测试的平行语料库,并利用这个过滤后的数据集对非监督模型进行微调,显著减少所产生的噪声,在 Java $ o$ Python 和 Python $ o$ C++ 方向上,与所有先前的最佳方法相比,分别取得了超过 16% 和 24% 的优异成绩,将错误率降低了超过 35%。
Oct, 2021