极低资源语言通用神经机器翻译

ACLFeb, 2018

Universal Neural Machine Translation for Extremely Low Resource Languages

Jiatao Gu, Hany Hassan, Jacob Devlin, Victor O.K. Li

TL;DR本文介绍了一种针对数据有限的语言的新的通用机器翻译方法，利用迁移学习的方法，在多源语言之间共享词汇和句子级别的表示，从而帮助低资源的语言利用高资源语言的词汇和句子表示，在罗马尼亚语 - 英语 WMT2016 上，我们的方法在 6k 的平行语料库上能够获得 23 BLEU 分数，远高于使用多语言训练和反向翻译的强基线系统的 18 BLEU 分数，此外，我们还展示了该方法可以在零样本条件下对同一数据集进行微调，达到接近 20 BLEU 的分数。

Abstract

In this paper, we propose a new universal machine translation approach focusing on languages with a limited amount of parallel data. Our proposed approach utilizes a transfer-learning approach to share lexical an

machine translation transfer-learning lexical representation sentence-level sharing low-resource languages

发现论文，激发创造

利用可比语料库诱导的双语词典进行低资源语言的神经机器翻译

本文使用端到端的 Siamese 双向递归神经网络从 Wikipedia 的可比较多语言文章中提取并生成平行句子，证明使用所收集的数据集可以提高低资源语言对 (英―印度语和英―泰米尔语) 上的 BLEU 分数。

Jun, 2018

基于短语和神经网络的无监督机器翻译

该研究研究了如何在只有大型单语语料库的情况下学习翻译。提出了两种模型，一种是神经模型，一种是基于短语的模型。这些模型通过参数的精心初始化、语言模型的去噪效应和反向迭代自动生成的并行数据来提高翻译性能。在 WMT'14 英语 - 法语和 WMT'16 德语 - 英语基准测试上，这些模型分别获得 28.1 和 25.2 BLEU 分数，比现有方法的 BLEU 分数高出 11 个分数。方法在英语 - 乌尔都语和英语 - 罗马尼亚语等低资源语言中也取得了良好的结果。

Apr, 2018

通过伪平行数据增强无监督机器翻译

即使有深度学习和大规模语言建模的最新发展，对于低资源语言的机器翻译任务仍然是一个挑战。我们提出了一种训练策略，依赖于从单语语料库中挖掘的伪平行句对和从单语语料库中反向翻译的合成句对。我们尝试了不同的训练计划，并在基于仅反向翻译数据训练的基线上实现了高达 14.5 BLEU 分（从英语到乌克兰语）的改进。

Oct, 2023

低资源神经机器翻译元学习

本文利用元学习算法 (MAML) 扩展低资源 NMT 问题，并通过多语言高资源任务进行学习来适应低资源语言，并利用全局词汇表解决不同语言的输入输出错配，在使用 18 种欧洲语言作为源任务和 5 种不同的语言作为目标任务的情况下，相对于基于多语言、迁移学习的方法，表明所提出的方法显著优于现有方法，并仅需少量训练示例即可获得具有竞争力的 NMT 系统。

Aug, 2018

利用单语语料库进行非监督式机器翻译

提出了一种基于单语语料的机器翻译方法，该方法使用深度学习技术将两种不同语言的句子映射到相同的潜在空间中，从而学习翻译而不使用任何标记数据，该方法在两种语言对的两个广泛使用的数据集上表现出色。

Oct, 2017

零资源语言的多语言神经机器翻译

本篇论文介绍了如何使用多语言神经机器翻译（multilingual NMT）解决低资源语种翻译问题，提出了一种基于迭代自训练的方法可以利用单语数据来提高零样本翻译的性能。实验结果表明，多语言 NMT 优于传统的双语 NMT，Transformer 模型优于循环神经网络模型，零样本 NMT 优于传统的基于中间语的翻译方法，甚至与完全训练的双语系统相当。

Sep, 2019

利用多语言技术进行非监督式稀有语言机器翻译

本文研究了针对低资源稀有语种的无监督翻译问题，提出了一个三阶段训练方案的多语种模型，结合了单语和辅助并行数据，取得了明显优于当前无监督基准线的效果。

Sep, 2020

基于通用编解码器的多语言神经机器翻译探索

本研究介绍了一种使用统一方法构建多语言神经机器翻译框架的方法，不需要对网络架构进行特殊处理，能在标准训练方式下学习最少数量的自由参数，在资源匮乏的翻译场景中表现出显著的效果，同时在源语言和目标语言之间没有直接平行语料库的翻译任务中也具有有趣和有前途的结果。

Nov, 2016

低资源语言的神经机器翻译

该研究探索了低资源语言领域的神经机器翻译以及如何通过 NLP 和深度学习技术对语言模型进行改进

Apr, 2023

无监督神经机器翻译

本研究提出了一种全新的方法，在没有平行数据的情况下，只利用单语数据即可训练 NMT 系统。这种基于注意力机制的编码器解码器模型结合去噪和回译技术，在 WMT 2014 的法英和德英翻译中获得了 15.56 和 10.21 BLEU 分数，且能够利用少量的平行数据来提高翻译质量。

Oct, 2017