Jan, 2023

利用短语对注入和语料过滤改进机器翻译

TL;DR本论文表明,短语注入和语料库过滤的组合提高了神经机器翻译 (NMT) 系统的性能。我们从伪平行语料库中提取并增广平行短语和句子,以此训练 NMT 模型。在 Hindi-Marathi、English-Marathi 和 English-Pashto 这 3 种低资源语言对和 6 种翻译方向上,我们观察到了 NMT 系统的改进,并在 FLORES 测试数据上提高了 2.7 BLEU 分,这些 BLEU 分数改进是基于使用整个伪平行语料库和平行语料库增广的模型。