通过伪平行数据增强无监督机器翻译

MMOct, 2023

通过伪平行数据增强无监督机器翻译

Boosting Unsupervised Machine Translation with Pseudo-Parallel Data

Ivana Kvapilíková, Ondřej Bojar

TL;DR即使有深度学习和大规模语言建模的最新发展，对于低资源语言的机器翻译任务仍然是一个挑战。我们提出了一种训练策略，依赖于从单语语料库中挖掘的伪平行句对和从单语语料库中反向翻译的合成句对。我们尝试了不同的训练计划，并在基于仅反向翻译数据训练的基线上实现了高达 14.5 BLEU 分（从英语到乌克兰语）的改进。

Abstract

Even with the latest developments in deep learning and large-scale language modeling, the task of machine translation (MT) of low-resource languages remains a challenge. →

machine translation low-resource languages neural mt systems training strategy bleu points

发现论文，激发创造

利用单语语料库进行非监督式机器翻译

提出了一种基于单语语料的机器翻译方法，该方法使用深度学习技术将两种不同语言的句子映射到相同的潜在空间中，从而学习翻译而不使用任何标记数据，该方法在两种语言对的两个广泛使用的数据集上表现出色。

Oct, 2017

无监督神经机器翻译

本研究提出了一种全新的方法，在没有平行数据的情况下，只利用单语数据即可训练 NMT 系统。这种基于注意力机制的编码器解码器模型结合去噪和回译技术，在 WMT 2014 的法英和德英翻译中获得了 15.56 和 10.21 BLEU 分数，且能够利用少量的平行数据来提高翻译质量。

Oct, 2017

基于短语和神经网络的无监督机器翻译

该研究研究了如何在只有大型单语语料库的情况下学习翻译。提出了两种模型，一种是神经模型，一种是基于短语的模型。这些模型通过参数的精心初始化、语言模型的去噪效应和反向迭代自动生成的并行数据来提高翻译性能。在 WMT'14 英语 - 法语和 WMT'16 德语 - 英语基准测试上，这些模型分别获得 28.1 和 25.2 BLEU 分数，比现有方法的 BLEU 分数高出 11 个分数。方法在英语 - 乌尔都语和英语 - 罗马尼亚语等低资源语言中也取得了良好的结果。

Apr, 2018

利用多语言技术进行非监督式稀有语言机器翻译

本文研究了针对低资源稀有语种的无监督翻译问题，提出了一个三阶段训练方案的多语种模型，结合了单语和辅助并行数据，取得了明显优于当前无监督基准线的效果。

Sep, 2020

跨语言监督提高无监督神经机器翻译

本研究提出了一种跨语言无监督神经机器翻译框架，利用来自高资源语言对的弱监督信号，以提高零资源翻译质量。该框架基于多语言模型，不需要对标准无监督神经机器翻译进行改动，实验结果表明使用该框架可以在六个基准无监督翻译方向上将翻译质量提高超过 3 个 BLEU 分数。

Apr, 2020

使用一致性正则化的半监督神经机器翻译技术 —— 面向低资源语言

本文介绍一种半监督的方法来解决低资源语言机器翻译的问题，通过增强高质量的句子对和使用基于 SentenceBERT 的过滤器来提高数据质量，将交叉熵损失和 KL 散度相结合，特别是通过伪目标句子实现无监督训练，实验证明该方法可以显著提高 NMT 基线性能

Apr, 2023

低资源机器翻译中的语法差异处理

本文提出一种简单但有效的方法，即将目标语句重新排序以匹配源语序，并将其作为另外一种训练时的监督信号，从而在模拟低资源日语 - 英语和真实低资源维吾尔 - 英语语种中获得显着改进。

Aug, 2019

低资源神经机器翻译的数据增强

本研究提出了一种以数据增强为基础的方法，针对低频词汇在合成的新语境中生成新的句子对，以提高神经机器翻译系统的翻译质量。在模拟低资源环境中的实验结果显示，相对于基准和回译方法，我们的方法能够提高翻译质量，最高可提高 2.9 BLEU 分数。

May, 2017

提取和编辑：自监督神经机器翻译的备选方案

提出并实现了一种基于抽取 - 编辑方法的无监督神经机器翻译，与以往仅使用错误积累法的基准性方法相比，在多个语言对和领域（包括低资源语言）的实验中表现更加优异。

Apr, 2019

探索有监督学习和自监督学习之间的协同作用：迈向多语言机器翻译的下一个 1000 种语言

通过混合监督和自我监督目标的方法，实现了覆盖数百种语言的多语言机器翻译模型的构建，该方法可在零资源情况下生成高质量翻译，甚至超过低 - 中资源语言的监督翻译质量。

Jan, 2022