ICLRMar, 2020

面向艾杜语族的神经机器翻译

TL;DR本文探讨在现代社会中,许多尼日利亚语言已经失去之前的声望和用途,转而使用英语和尼日利亚皮钦语,导致数百万母语为土著语言的人无法公平地获取信息、沟通、医疗、安全和参与政治民生事务等方面存在的不平等。为了减少排斥并促进社会语言和经济赋权,本文探讨使用神经机器翻译技术在尼日利亚南部的 Edoid 语系中的可行性。使用新的 JW300 公共数据集,本文训练和评估了此组中四种常用语言(Ed'o,'Es'an,Urhobo 和 Isoko)的基线翻译模型,并将训练模型、代码和数据集开源以推进未来的 Edoid 语言技术研究。