机器翻译中的源目标领域不匹配问题
本文展示了一种简单的初始化方案,用于克服跨语言转移中不同领域的影响,通过在领域不匹配的语料库上预训练词和上下文嵌入,然后用于多个任务中,包括 UBLI、UNMT 和 SemEval 2017 跨语言词汇相似性任务,挑战了之前的研究论文并指出,在适当初始化的情况下可以恢复由于域不匹配而产生的损失。
Nov, 2022
本研究提出了一种利用预训练语言模型进行领域特定数据增强的领域自适应新方法,通过该方法,配合回译技术,可生成大量合成双语的领域内数据,从而显著改进了机器翻译的领域内文本的翻译效果。人工评估结果进一步证实了自动评估结果的准确性。
Aug, 2022
提出了一种利用众包工作者从网络中有效地收集一个目标领域平行句子的框架,从而快速地将机器翻译模型适应于目标领域,实验证明这种方法可以在几天内以合理的成本收集到目标领域平行数据,并且与通用翻译模型相比,域适应模型的 BLEU 评分平均提高了 7.8 分、最高提高了 19.7 分。
Oct, 2022
通过对不同语言对、语料库和低资源语言实施 extensive empirical evaluation,我们发现 unsupervised machine translation 的性能很大程度上取决于 source 和 target corpora 的相似度、随机 word embedding initialization,以及源语言和目标语言的文字脚本。因此,我们提倡对 unsupervised MT 系统进行广泛的实证评估,并鼓励在最有前途的范式上继续研究。
Apr, 2020
本文提出一种简单但有效的方法,即将目标语句重新排序以匹配源语序,并将其作为另外一种训练时的监督信号,从而在模拟低资源日语 - 英语和真实低资源维吾尔 - 英语语种中获得显着改进。
Aug, 2019
本文介绍了 Baidu 和 Oregon State University 在 WMT 2019 机器翻译鲁棒性共享任务中联合开发的机器翻译系统。通过使用领域敏感的训练方法和后翻译的伪噪声源句子生成平行数据集,与基线方法相比,在 En-Fr 和 Fr-En 翻译中都取得了超过 10 BLEU 提升。
Jun, 2019
本文研究了机器翻译模型在未知领域中的性能表现,发现在未知领域中,统计机器翻译(SMT)和神经机器翻译(NMT)系统存在不同的问题:SMT 系统通常足够但不流利,而 NMT 系统流利但不足够。本文发现,NMT 系统出现的 “幻觉” 现象是造成低域稳健性的主要原因,研究并比较了有关提高 NMT 系统稳健性的方法,实验结果表明,这些方法能够稍微提高 NMT 系统翻译的充分性,但对流畅性的提高较小。
Nov, 2019
本文研究神经机器翻译中的语言覆盖偏差问题,并提出两种有效方法来缓解该问题。结果表明,通过明确区分源语言和目标语言的训练数据,可以提高现有方法在六个翻译任务上的表现。同时,作者还发现语言覆盖偏差问题也能够解释回译所导致的性能下降表现,并在数据增强的两种代表性方法中实现了更好的表现。
Jun, 2021
本文提出了一种无监督的自适应方法,使用伪域内语料库通过微调预先训练的域外 NMT 模型,借助词典诱导提取域内词汇,并通过针对性的单语域内目标句子进行逐词反向翻译构建伪平行域内语料库,在 20 对自适应设置和两种模型架构的五个领域中,我们的方法始终显示出提高,而不需要使用任何域内平行句子,改进了未经过调整的模型高达 14 BLEU 和强反向翻译基线的最高 2 BLEU。
Jun, 2019
通过利用附加单语资源来创建合成训练数据,可以提高神经机器翻译的质量,本文探讨了前向翻译和反向翻译在翻译源语句子和目标语句子时的优点,并研究了不同地域、语言和噪音环境下翻译的影响。另外,本文还给出了低资源情况下前向和反向翻译的比较。
Nov, 2019