Jun, 2024

声音未听到:为约鲁巴地区方言提供的自然语言处理资源和模型

TL;DR用高质量的平行文本和语音语料库 (YORÙLECT) 跨三个领域和四个地区的尼日利亚约鲁巴语方言开展研究实验,结果表明,标准尼日利亚约鲁巴语和其他方言在机器翻译、自动语音识别和语音到文本翻译等任务中存在明显的差异,在方言自适应微调的情况下,能够缩小这一差距,该研究为尼日利亚约鲁巴语及其方言以及其他非洲语言的自然语言处理工具的发展做出了重要贡献。