从有限的平行语料中生成合成训练样本,即非流利目标端句子能够在多语种机器翻译框架中有效地提高翻译性能,并且这种方法对原始训练语料的规模不敏感,从而使系统更鲁棒、产生更少的幻觉。
Jan, 2024
本论文提出一种结合了回译和多语言神经机器翻译技术的新技术,通过为一个语言对训练一个模型来改善在低资源和跨领域情况下的机器翻译效果,并且能显著降低培训和部署成本。
May, 2018
即使有深度学习和大规模语言建模的最新发展,对于低资源语言的机器翻译任务仍然是一个挑战。我们提出了一种训练策略,依赖于从单语语料库中挖掘的伪平行句对和从单语语料库中反向翻译的合成句对。我们尝试了不同的训练计划,并在基于仅反向翻译数据训练的基线上实现了高达 14.5 BLEU 分(从英语到乌克兰语)的改进。
Oct, 2023
本研究探讨了使用回译数据对 NMT 模型性能的影响,通过逐步增加回译数据来训练一系列以德语为源语言,以英语为目标语言的 NMT 系统,并分析了相应的翻译绩效。
Apr, 2018
使用生成式语言模型创造虚构平行语料库是对手动平行语料库的一个替代方案。我们的实验发现,虚构语料库可以为小型手动采集的语料库补充数据,从而提高翻译信号的质量。
Jul, 2023
本文研究并比较了使用无监督机器翻译生成的合成平行数据与有监督机器翻译和现有规范平行数据的效果;使用这些数据解决一些下游任务的表现。作者发现,即使是模型生成的平行数据也可以在继续预训练和具体任务训练方面对下游任务有所帮助,但目前最佳结果仍然来自于真实的平行数据。该研究提示人们重新考虑跨语种学习方法的传统分类,并可以更大程度地利用单语数据进行多语言建模。
Dec, 2022
通过交替使用合成和真实语料库,提出一种神经机器翻译的备选训练方法,实验结果表明,在汉英翻译和德英翻译任务中,该方法在几种强基线模型上都表现出更好的性能,真实数据有助于将 NMT 模型参数导向具有较高 BLEU 分数的点并提高一致性的翻译表现。
Jun, 2021
我们提出了一种依赖于词法 - 句法信息和双语词典以及少量种子并行数据来合成并行数据的策略,该方法在 14 种语言中(28 个英语 <->X 对)的实验中展示了性能的一致提升。
Feb, 2024
使用大型预训练模型生成合成目标数据可以提高限定资源环境下机器翻译模型的性能,这种方法可以优于在实际数据上训练模型,效果更好的原因可以归因于模型参数的数量限制和优化效果的提高。
May, 2023
本文对神经机器翻译的数据生成进行了系统研究,比较了不同的单语数据使用方法和多个数据生成过程,并介绍了一些便宜易实现的新数据模拟技术。研究发现,通过回译技术生成人工平行数据非常有效,并给出了原因解释。
Mar, 2019