Jul, 2024

Toucan:适用于150种非洲语言对的多对多翻译

TL;DR我们通过引入一套用于改善低资源语言的机器翻译的资源集合,填补了自然语言处理领域的一个显著的空白,特别关注非洲语言。我们介绍了两个语言模型(Cheetah-1.2B和Cheetah-3.7B),分别具有12亿和37亿个参数。接下来,我们对上述模型进行微调,创建了一个名为toucan的非洲中心的机器翻译模型,支持156种非洲语言对。为了评估toucan,我们精心开发了一个广泛的机器翻译基准,命名为AfroLingu-MT,专门用于评估机器翻译。toucan在性能上显著优于其他模型,展示了其在非洲语言机器翻译方面的出色表现。最后,我们训练了一个新模型spBLEU-1K,以提高翻译评估指标,覆盖了614种非洲语言在内的1K种语言。该工作旨在推进自然语言处理领域,促进跨文化理解和知识交流,特别是在具有有限语言资源的地区,如非洲。Toucan项目的GitHub仓库位于此https网址。