机器翻译中的源目标领域不匹配问题

Sep, 2019

机器翻译中的源目标领域不匹配问题

The Source-Target Domain Mismatch Problem in Machine Translation

Jiajun Shen, Peng-Jen Chen, Matt Le, Junxian He, Jiatao Gu...

TL;DR研究了地域文化差异对机器翻译的影响，提出了源 - 目标域不匹配的概念，并验证了此假设。探究了这种不匹配如何影响低资源语言对的机器翻译训练，发现通过自我训练和增加目标端单语数据可以减轻背译的衰减。

Abstract

While we live in an increasingly interconnected world, different places still exhibit strikingly different cultures and many events we experience in our every day life pertain only to the specific place we live in. As a result, people often talk about different things in different parts of the world. In this work we study the effect of →

local context machine translation source-target domain mismatch low resource language pairs back-translation

发现论文，激发创造

领域不匹配并不总是阻止跨语言迁移学习

本文展示了一种简单的初始化方案，用于克服跨语言转移中不同领域的影响，通过在领域不匹配的语料库上预训练词和上下文嵌入，然后用于多个任务中，包括 UBLI、UNMT 和 SemEval 2017 跨语言词汇相似性任务，挑战了之前的研究论文并指出，在适当初始化的情况下可以恢复由于域不匹配而产生的损失。

Nov, 2022

针对机器翻译的领域特定文本生成

本研究提出了一种利用预训练语言模型进行领域特定数据增强的领域自适应新方法，通过该方法，配合回译技术，可生成大量合成双语的领域内数据，从而显著改进了机器翻译的领域内文本的翻译效果。人工评估结果进一步证实了自动评估结果的准确性。

Aug, 2022

利用众包工作者进行机器翻译的域适应

提出了一种利用众包工作者从网络中有效地收集一个目标领域平行句子的框架，从而快速地将机器翻译模型适应于目标领域，实验证明这种方法可以在几天内以合理的成本收集到目标领域平行数据，并且与通用翻译模型相比，域适应模型的 BLEU 评分平均提高了 7.8 分、最高提高了 19.7 分。

Oct, 2022

无监督机器翻译何时有效？

通过对不同语言对、语料库和低资源语言实施 extensive empirical evaluation，我们发现 unsupervised machine translation 的性能很大程度上取决于 source 和 target corpora 的相似度、随机 word embedding initialization，以及源语言和目标语言的文字脚本。因此，我们提倡对 unsupervised MT 系统进行广泛的实证评估，并鼓励在最有前途的范式上继续研究。

Apr, 2020

低资源机器翻译中的语法差异处理

本文提出一种简单但有效的方法，即将目标语句重新排序以匹配源语序，并将其作为另外一种训练时的监督信号，从而在模拟低资源日语 - 英语和真实低资源维吾尔 - 英语语种中获得显着改进。

Aug, 2019

带有领域敏感的伪数据的健壮机器翻译：百度 - 俄勒冈州立大学 WMT19 MT 健壮性共享任务系统报告

本文介绍了 Baidu 和 Oregon State University 在 WMT 2019 机器翻译鲁棒性共享任务中联合开发的机器翻译系统。通过使用领域敏感的训练方法和后翻译的伪噪声源句子生成平行数据集，与基线方法相比，在 En-Fr 和 Fr-En 翻译中都取得了超过 10 BLEU 提升。

Jun, 2019

神经机器翻译的领域鲁棒性

本文研究了机器翻译模型在未知领域中的性能表现，发现在未知领域中，统计机器翻译（SMT）和神经机器翻译（NMT）系统存在不同的问题：SMT 系统通常足够但不流利，而 NMT 系统流利但不足够。本文发现，NMT 系统出现的 “幻觉” 现象是造成低域稳健性的主要原因，研究并比较了有关提高 NMT 系统稳健性的方法，实验结果表明，这些方法能够稍微提高 NMT 系统翻译的充分性，但对流畅性的提高较小。

Nov, 2019

神经机器翻译中的语言覆盖偏差

本文研究神经机器翻译中的语言覆盖偏差问题，并提出两种有效方法来缓解该问题。结果表明，通过明确区分源语言和目标语言的训练数据，可以提高现有方法在六个翻译任务上的表现。同时，作者还发现语言覆盖偏差问题也能够解释回译所导致的性能下降表现，并在数据增强的两种代表性方法中实现了更好的表现。

Jun, 2021

通过词表归纳进行神经机器翻译的领域适应

本文提出了一种无监督的自适应方法，使用伪域内语料库通过微调预先训练的域外 NMT 模型，借助词典诱导提取域内词汇，并通过针对性的单语域内目标句子进行逐词反向翻译构建伪平行域内语料库，在 20 对自适应设置和两种模型架构的五个领域中，我们的方法始终显示出提高，而不需要使用任何域内平行句子，改进了未经过调整的模型高达 14 BLEU 和强反向翻译基线的最高 2 BLEU。

Jun, 2019

神经机器翻译合成数据中的领域、翻译语体和噪声

通过利用附加单语资源来创建合成训练数据，可以提高神经机器翻译的质量，本文探讨了前向翻译和反向翻译在翻译源语句子和目标语句子时的优点，并研究了不同地域、语言和噪音环境下翻译的影响。另外，本文还给出了低资源情况下前向和反向翻译的比较。

Nov, 2019