Sep, 2022

数据自适应迁移学习用于翻译:海地和牙买加的案例研究

TL;DR研究表明,对于低资源机器翻译,多语言转移技术的有效性与训练数据量以及知识共享语言之间的关系有关,当某些语言超过真实数据的阈值时,回译增强方法会适得其反,而跨语言转移则更合适。同时,该研究提出了一种基于规则的法语 - 海地克里奥尔语正字和句法引擎和一种新型的音韵嵌入方法,这些方法使得正字转换在多语言技术中相对于传统方法显著提高效果。在极低资源的牙买加机器翻译中,通过与一种具有正字相似度的转移语言进行代码交换,可以获得 6.63 BLEU 点的优势。