仅使用合成的平行数据构建神经机器翻译系统

Apr, 2017

仅使用合成的平行数据构建神经机器翻译系统

Building a Neural Machine Translation System Using Only Synthetic Parallel Data

Jaehong Park, Jongyoon Song, Sungroh Yoon

TL;DR本文探讨了使用合成的并行数据在神经机器翻译中的作用，提出了一种新型的伪并行语料库，在捷克 - 德语和法语 - 德语翻译方面进行了实验证明其有效性。

Abstract

Recent works have shown that synthetic parallel data automatically generated by translation models can be effective for various neural machine translation (NMT) issues. In this study, we build NMT systems using o

neural machine translation synthetic parallel data pseudo parallel corpus czech-german translations french-german translations

发现论文，激发创造

非流利的合成目标语言数据提高神经机器翻译

从有限的平行语料中生成合成训练样本，即非流利目标端句子能够在多语种机器翻译框架中有效地提高翻译性能，并且这种方法对原始训练语料的规模不敏感，从而使系统更鲁棒、产生更少的幻觉。

Jan, 2024

双向神经机器翻译与合成平行数据

本论文提出一种结合了回译和多语言神经机器翻译技术的新技术，通过为一个语言对训练一个模型来改善在低资源和跨领域情况下的机器翻译效果，并且能显著降低培训和部署成本。

May, 2018

通过伪平行数据增强无监督机器翻译

即使有深度学习和大规模语言建模的最新发展，对于低资源语言的机器翻译任务仍然是一个挑战。我们提出了一种训练策略，依赖于从单语语料库中挖掘的伪平行句对和从单语语料库中反向翻译的合成句对。我们尝试了不同的训练计划，并在基于仅反向翻译数据训练的基线上实现了高达 14.5 BLEU 分（从英语到乌克兰语）的改进。

Oct, 2023

神经机器翻译中的回译研究

本研究探讨了使用回译数据对 NMT 模型性能的影响，通过逐步增加回译数据来训练一系列以德语为源语言，以英语为目标语言的 NMT 系统，并分析了相应的翻译绩效。

Apr, 2018

使用 ChatGPT 进行神经机器翻译数据生成和增强

使用生成式语言模型创造虚构平行语料库是对手动平行语料库的一个替代方案。我们的实验发现，虚构语料库可以为小型手动采集的语料库补充数据，从而提高翻译信号的质量。

Jul, 2023

跨语言迁移学习中平行数据的作用

本文研究并比较了使用无监督机器翻译生成的合成平行数据与有监督机器翻译和现有规范平行数据的效果；使用这些数据解决一些下游任务的表现。作者发现，即使是模型生成的平行数据也可以在继续预训练和具体任务训练方面对下游任务有所帮助，但目前最佳结果仍然来自于真实的平行数据。该研究提示人们重新考虑跨语种学习方法的传统分类，并可以更大程度地利用单语数据进行多语言建模。

Dec, 2022

使用合成和真实数据进行的交替训练，用于神经机器翻译

通过交替使用合成和真实语料库，提出一种神经机器翻译的备选训练方法，实验结果表明，在汉英翻译和德英翻译任务中，该方法在几种强基线模型上都表现出更好的性能，真实数据有助于将 NMT 模型参数导向具有较高 BLEU 分数的点并提高一致性的翻译表现。

Jun, 2021

基于词典的形态学感知数据增强技术用于机器翻译低资源语种

我们提出了一种依赖于词法 - 句法信息和双语词典以及少量种子并行数据来合成并行数据的策略，该方法在 14 种语言中（28 个英语 <->X 对）的实验中展示了性能的一致提升。

Feb, 2024

利用合成目标进行机器翻译

使用大型预训练模型生成合成目标数据可以提高限定资源环境下机器翻译模型的性能，这种方法可以优于在实际数据上训练模型，效果更好的原因可以归因于模型参数的数量限制和优化效果的提高。

May, 2023

神经机器翻译中的单语数据使用：一项系统研究

本文对神经机器翻译的数据生成进行了系统研究，比较了不同的单语数据使用方法和多个数据生成过程，并介绍了一些便宜易实现的新数据模拟技术。研究发现，通过回译技术生成人工平行数据非常有效，并给出了原因解释。

Mar, 2019