利用课程学习提升无监督神经机器翻译的性能

EMNLPSep, 2021

利用课程学习提升无监督神经机器翻译的性能

Exploiting Curriculum Learning in Unsupervised Neural Machine Translation

Jinliang Lu, Jiajun Zhang

TL;DR通过提出一种课程学习方法，将从多个粒度发现语料库中的质量，逐渐利用从易到难的数据，通过平衡不同部分的质量得分，推动模型关注更高质量的数据，从而显著提高无监督神经机器翻译的翻译性能.

Abstract

back-translation (BT) has become one of the de facto components in unsupervised neural machine translation (UNMT), and it explicitly makes UNMT have translation ability. However, all the pseudo bi-texts generated

unsupervised neural machine translation back-translation curriculum learning quality diversity fine-grained quality scores

发现论文，激发创造

通过伪平行数据增强无监督机器翻译

即使有深度学习和大规模语言建模的最新发展，对于低资源语言的机器翻译任务仍然是一个挑战。我们提出了一种训练策略，依赖于从单语语料库中挖掘的伪平行句对和从单语语料库中反向翻译的合成句对。我们尝试了不同的训练计划，并在基于仅反向翻译数据训练的基线上实现了高达 14.5 BLEU 分（从英语到乌克兰语）的改进。

Oct, 2023

无监督神经机器翻译

本研究提出了一种全新的方法，在没有平行数据的情况下，只利用单语数据即可训练 NMT 系统。这种基于注意力机制的编码器解码器模型结合去噪和回译技术，在 WMT 2014 的法英和德英翻译中获得了 15.56 和 10.21 BLEU 分数，且能够利用少量的平行数据来提高翻译质量。

Oct, 2017

非平衡训练数据情景下的无监督神经机器翻译自训练

本文旨在解决源语言文本资源匮乏时，因失衡的训练数据导致无监督神经机器翻译系统（UNMT）性能低下的问题，提出基于自训练机制的 UNMT 系统，实验证明了其比传统 UNMT 系统的性能更好。

Apr, 2020

自训练上下文嵌入的无监督双语挖掘与翻译

采用无监督学习方法使用多语言 BERT 创建伪平行语料库以提高机器翻译性能，并在不同任务中获得显著提高。

Oct, 2020

元背译

本文提出了一种基于元学习的算法，通过调整预先训练的 back-translation 模型来生成伪平行数据，用于训练前向翻译模型，并在 WMT 数据集和多语言翻译中实现了显著的改进。

Feb, 2021

基于强化学习的神经机器翻译课程优化

本研究运用强化学习方法，实现神经机器翻译中异质训练数据的有效生成和利用，提出课程学习框架，相比于传统方法，该方法展现出更好的表现和更强的数据泛化能力。

Feb, 2019

提取和编辑：自监督神经机器翻译的备选方案

提出并实现了一种基于抽取 - 编辑方法的无监督神经机器翻译，与以往仅使用错误积累法的基准性方法相比，在多个语言对和领域（包括低资源语言）的实验中表现更加优异。

Apr, 2019

跨语言监督提高无监督神经机器翻译

本研究提出了一种跨语言无监督神经机器翻译框架，利用来自高资源语言对的弱监督信号，以提高零资源翻译质量。该框架基于多语言模型，不需要对标准无监督神经机器翻译进行改动，实验结果表明使用该框架可以在六个基准无监督翻译方向上将翻译质量提高超过 3 个 BLEU 分数。

Apr, 2020

无监督神经机器翻译的实证研究：NMT 输出、模型行为和句子贡献的分析

无监督神经机器翻译（UNMT）关注于提高无人翻译平行数据的 NMT 结果，但在突出其优势与分析除翻译准确性以外的输出方面，迄今为止还做得很少。我们聚焦于三种非常不同的语言，法语、古吉拉特语和哈萨克语，并使用不同程度的监督来训练双语 NMT 模型，并在高和低资源环境中，测量 NMT 输出的质量，并将生成的序列的词序和语义相似性与源语句和参考句子进行比较。我们还使用分层相关传播来评估源语句和目标语句对结果的贡献，并扩展了先前作品对 UNMT 范式的发现。

Dec, 2023

基于非监督统计机器翻译初始化的无监督神经机器翻译

这篇论文介绍了一种使用合成的双语数据来训练无监督神经机器翻译系统的方法，并使用增量式的反向翻译方法来提高其性能。在 WMT16 德英新闻翻译任务上，该方法在无监督机器翻译方面实现了新的技术水平。

Oct, 2018