ICLRMar, 2020

改善 Yorùbá 重音恢复

TL;DR近年来,我们通过聚合和改进来自互联网和各种个人图书馆的不同文本,使我们的干净的 Yoruba 数据集从以 Bibilical 文本语料库为主,来源有三个,增长到来自十多个来源的数百万标记。我们评估了对现代新闻文本进行多用途选择和反映当代使用的公共领域 Yoruba 评估数据集上的更新的变音恢复模型。所有预训练的模型、数据集和源代码都已作为开源项目发布,以推进 Yoruba 语言技术的发展。