ACLMay, 2022

地理距离是新的超参数:寻找最佳英语 - Zulu 预训练语言的机器翻译案例研究

TL;DR本研究探讨了在英 - 祖鲁语翻译框架中使用迁移学习的潜在益处。结果表明,从相关语言进行迁移学习可以提高低资源翻译模型的性能,这为未来的低资源翻译提供了关键策略。我们从 8 个不同的语料库(包括一个多语言语料库)中收集了结果,看到 isiXhosa-isiZulu 在测试集上的 BLEU 得分为 8.56,超过了多语言语料库中的预训练模型 2.73。我们还推导出了一个新系数,纳西尔地理距离系数(NGDC),它提供了一个用于预训练模型选择语言的简单方法。NGDC 也指出应该选择 isiXhosa 作为预训练模型的语言。