利用预训练语言模型进行未监督 NMT 的低语料语言重用

EMNLPSep, 2020

利用预训练语言模型进行未监督 NMT 的低语料语言重用

Reusing a Pretrained Language Model on Languages with Limited Corpora for Unsupervised NMT

Alexandra Chronopoulou, Dario Stojanovski, Alexander Fraser

TL;DR通过对两种大规模单语数据进行预先训练的语言模型（LM）初始化无监督神经机器翻译（UNMT）系统可以获得最先进的结果，但当一个语言的数据有限时，则会导致翻译不佳。我们提出了一种有效的方法，该方法重新使用仅在高资源语言上进行预训练的 LM。单语 LM 在两种语言上进行微调，然后用于初始化 UNMT 模型。为了重复使用预先训练的 LM，我们必须修改其预定义的词汇量以适应新语言。因此，我们提出了一种新颖的词汇扩展方法（RE-LM），在英语 - 马其顿语（En-Mk）和英语 - 阿尔巴尼亚语（En-Sq）中的四个翻译方向上，RE-LM 的表现优于竞争的跨语言预训练模型（XLM），BLEU 分数提高了 + 8.3 以上。

Abstract

Using a language model (LM) pretrained on two languages with large monolingual data in order to initialize an unsupervised neural machine translation (UNMT) system yields state-of-the-art results. When limited data is available for one language, however, this method leads to poor trans

language model unsupervised neural machine translation pretraining vocabulary extension cross-lingual

发现论文，激发创造

针对无监督神经机器翻译，提升预训练语言模型的词汇能力

本文介绍了一种基于子词嵌入的双语掩码语言模型预训练方法，应用于无监督神经机器翻译和双语词汇归纳任务中均取得了较好的性能表现。

Mar, 2021

跨语言语言模型预训练

本文提出了两种跨语言学习模型的方法 (XLMs): 一种是仅依赖于单语数据的无监督方式，另一种是利用新的跨语言模型目标并使用平行数据的有监督方式。通过这些方法在跨语言分类、无监督和有监督机器翻译中取得了最先进的结果。

Jan, 2019

神经机器翻译的半监督学习

该论文提出了一种半监督的方法来训练神经机器翻译模型，该方法使用标记数据和未标记数据的拼接，通过一个自编码器重建单语语料库，从而利用源语言和目标语言的单语语料库以及双语平行语料库从而在中英数据集上取得了显著的性能提升。

Jun, 2016

LlamaTurk：为低资源语言适应开源生成型大语言模型

通过对英语为主的生成大语言模型进行调整，以适应资源匮乏的语言，并评估了不同的策略，包括持续训练、指导微调、任务特定微调和词汇扩展。结果表明，持续训练改进了语言理解能力，任务特定微调一般提高了下游任务的性能，但扩展词汇未带来实质性的益处。此外，在适应时，较大的模型通过少样本微调可以提高任务性能，而多语言模型在适应时表现不如单语言模型。

May, 2024

跨语言监督提高无监督神经机器翻译

本研究提出了一种跨语言无监督神经机器翻译框架，利用来自高资源语言对的弱监督信号，以提高零资源翻译质量。该框架基于多语言模型，不需要对标准无监督神经机器翻译进行改动，实验结果表明使用该框架可以在六个基准无监督翻译方向上将翻译质量提高超过 3 个 BLEU 分数。

Apr, 2020

基于参考语言的无监督神经机器翻译

本文提出了一种基于参考语言的非监督神经机器翻译 (RUNMT) 框架，以解决非监督翻译性能不佳的问题，通过扩充平行语料库的使用范围，使得参考语言只需要与源语言共享平行语料库，同时提出了一种参考协议机制，利用参考语言中的线索来帮助无监督机器翻译的重构训练。实验结果表明，该方法比只使用一个辅助语言的强基线模型在质量上有所提高，为该领域建立了良好的起点。

Apr, 2020

非平衡训练数据情景下的无监督神经机器翻译自训练

本文旨在解决源语言文本资源匮乏时，因失衡的训练数据导致无监督神经机器翻译系统（UNMT）性能低下的问题，提出基于自训练机制的 UNMT 系统，实验证明了其比传统 UNMT 系统的性能更好。

Apr, 2020

利用自监督单语数据进行多语言神经机器翻译

本文研究了两个方向在低资源的神经机器翻译中的应用。第一种方向利用高资源语言通过多语言 NMT 来提高低资源语言的翻译质量。第二种方向利用自监督单语数据来预训练翻译模型并在少量监督数据的支持下进行 fine-tuning。本研究结合这两种方向，证明了单语数据对于多语言 NMT 的有效性，并提出了三个重要结果：(i) 使用单语数据显著提高了多语言模型中低资源语言的翻译质量。(ii) 自监督在多语言模型中提高了零样本翻译质量。(iii) 利用带自监督的单语数据为多语言模型添加新语言提供了一条可行的路径，在没有任何平行数据或回译的情况下，对于罗马尼亚 - 英语的翻译获得了高达 33 BLEU 的结果。

May, 2020

无监督神经机器翻译

本研究提出了一种全新的方法，在没有平行数据的情况下，只利用单语数据即可训练 NMT 系统。这种基于注意力机制的编码器解码器模型结合去噪和回译技术，在 WMT 2014 的法英和德英翻译中获得了 15.56 和 10.21 BLEU 分数，且能够利用少量的平行数据来提高翻译质量。

Oct, 2017

通过语言分离多语言模型提高低资源无监督翻译的精度

该论文提出一种简单的细化流程，将语言从预训练的多语言 UMT 模型中分离出来，使其专注于目标低资源任务，并实现了英语到尼泊尔语、僧伽罗语、古吉拉特语、拉脱维亚语、爱沙尼亚语和哈萨克语的全无监督翻译任务的最先进，其 BLEU 得分分别为 3.5，3.5，3.3，4.1，4.2 和 3.3。

May, 2022