COLINGMar, 2024
EthioMT:适用于低资源埃塞俄比亚语言的平行语料库
EthioMT: Parallel Corpus for Low-resource Ethiopian Languages
Atnafu Lambebo Tonja, Olga Kolesnikova, Alexander Gelbukh, Jugal Kalita
TL;DR自然语言处理在机器翻译、新闻分类和问答等高资源语种的任务上取得了显著的性能,但对于低资源语种的机器翻译仍有待改善。本文介绍了 EthioMT,一个包含 15 种语言的新的平行语料库,同时收集了一份更为研究充分的语言在埃塞俄比亚的基准数据集,通过使用变压器和微调方法对 23 种埃塞俄比亚语言的新收集语料和基准数据集进行评估。