MMOct, 2023

通过伪平行数据增强无监督机器翻译

TL;DR即使有深度学习和大规模语言建模的最新发展,对于低资源语言的机器翻译任务仍然是一个挑战。我们提出了一种训练策略,依赖于从单语语料库中挖掘的伪平行句对和从单语语料库中反向翻译的合成句对。我们尝试了不同的训练计划,并在基于仅反向翻译数据训练的基线上实现了高达 14.5 BLEU 分(从英语到乌克兰语)的改进。