提高英语到提格里尼亚语翻译质量的数据增强技术探索

Mar, 2021

提高英语到提格里尼亚语翻译质量的数据增强技术探索

An Exploration of Data Augmentation Techniques for Improving English to Tigrinya Translation

Lidia Kidane, Sachin Kumar, Yulia Tsvetkov

TL;DR本文主要研究神经机器翻译在低资源条件下的表现，提出通过对目标语句子进行回译生成人工数据的方法，并以提取 Tigrinya 语言为案例，研究了多种回译方法，最终发现及时利用中间语言进行回译是在低资源条件下提高性能的最有效方法。

Abstract

It has been shown that the performance of neural machine translation (NMT) drops starkly in low-resource conditions, often requiring large amounts of auxiliary data to achieve competitive results. An effective me

发现论文，激发创造

低资源神经机器翻译的数据增强

本研究提出了一种以数据增强为基础的方法，针对低频词汇在合成的新语境中生成新的句子对，以提高神经机器翻译系统的翻译质量。在模拟低资源环境中的实验结果显示，相对于基准和回译方法，我们的方法能够提高翻译质量，最高可提高2.9 BLEU分数。

May, 2017

神经机器翻译中的回译研究

本研究探讨了使用回译数据对NMT模型性能的影响，通过逐步增加回译数据来训练一系列以德语为源语言，以英语为目标语言的NMT系统，并分析了相应的翻译绩效。

Apr, 2018

双向神经机器翻译与合成平行数据

本论文提出一种结合了回译和多语言神经机器翻译技术的新技术，通过为一个语言对训练一个模型来改善在低资源和跨领域情况下的机器翻译效果，并且能显著降低培训和部署成本。

May, 2018

规模理解后向翻译

使用单语数据生成目标语反向翻译的有效方法能够提高神经机器翻译质量。本研究比较了几种方法生成合成源句子的效果，发现使用采样或噪声束搜索的反向翻译方法效果最好，并证实这种合成数据的训练信号强于束搜索或贪婪搜索的数据，同时也比较了它们与真实的平行语料库的效果，并研究了不同领域对它们的影响。最终，将这种方法扩展到数亿条单语数据，获得了35 BLEU的WMT'14英德测试集上的最新记录。

Aug, 2018

神经机器翻译中的单语数据使用：一项系统研究

本文对神经机器翻译的数据生成进行了系统研究，比较了不同的单语数据使用方法和多个数据生成过程，并介绍了一些便宜易实现的新数据模拟技术。研究发现，通过回译技术生成人工平行数据非常有效，并给出了原因解释。

Mar, 2019

低资源翻译的广义数据增强

本论文提出了一种在低资源机器翻译中进行数据增强的通用框架，该框架不仅使用目标端单语数据，还通过相关高资源语言进行桥接，通过在两个步骤中使用词典和修改无监督机器翻译框架，将高资源数据转换为低资源语言，实验证明该方法在极低的资源条件下，与受监督背景转换基线相比，可将翻译质量提高1.5到8个BLEU点。

Jun, 2019

标记后翻译

提出源端输入带标记的后向翻译方法，以替代传统的加噪声方法，实验证明该方法在英罗马尼亚语翻译中表现优于传统方法，且在英德语翻译中达到同等水平，重新定义了该领域的最佳表现。

Jun, 2019

神经机器翻译中的反向翻译泛化

本研究提出在跨熵优化的范畴中改进后向翻译，其涵盖包括从目标到源 NMT 模型中进行采样的更广泛的合成数据生成方案，并在 WMT 2018 德语-英语新闻翻译任务上验证了我们的陈述。

Jun, 2019

低资源机器翻译中的语法差异处理

本文提出一种简单但有效的方法，即将目标语句重新排序以匹配源语序，并将其作为另外一种训练时的监督信号，从而在模拟低资源日语 - 英语和真实低资源维吾尔 - 英语语种中获得显着改进。

Aug, 2019

低资源NMT的高质量数据增强：结合翻译记忆、生成对抗网络与过滤

本研究解决了低资源语言翻译任务中数据集扩展的困难，提出了一种利用单语语料库和生成对抗网络（GAN）相结合的新方法，以增强训练数据并提高翻译质量。通过整合翻译记忆（TM）与NMT，并提出了一种新的过滤程序，该工作显著提高了合成句对的质量，为低资源NMT提供了有效的数据增强策略。

Aug, 2024