OkwuGbé: Fon 和 Igbo 的端到端语音识别
该研究论文介绍了关于自然语言处理在非洲语言的应用的研究进展,指出非洲语言的自然语言处理技术和工具存在落后的现象。在此背景下,作者提出了建立一个 Igbo 语言的机器翻译基准数据集的思路,从而提升非洲语言的自然语言技术水平。
Apr, 2020
本文介绍了针对非洲语言首次提供的高质量对话数据集,并通过深度单语模型 DialoGPT 和 BlenderBot 以及基准模型 seq2seq 对其进行建模,利用重叠度进行效果分析,同时通过人类评估方法验证其有效性,发现深度单语模型可以学习一些泛化跨语言的抽象,人类得分最高的是奈及利亚皮钦英语。
Apr, 2022
为了发展 Igbo 语言的语言技术以促进沟通、学习和保护,本研究通过构建多方言的 Igbo-API 数据集,并应用于 Igbo 语义词典和机器翻译的研究中,有效地解决了 Igbo 语言技术面临的方言差异问题。
May, 2024
本研究主要针对非洲土著语言的神经机器翻译问题,提出基于 Word-Expressions-Based 的超词标记策略,相较于其他标记方法可以更好地应对具有语法、韵律、声调特征的非洲语言翻译训练的困难性。实验结果表明,在 Fon - 法语和法语 - Fon 的翻译任务中,基于该方法得到的 NMT 模型更加可靠。
Mar, 2021
用高质量的平行文本和语音语料库 (YORÙLECT) 跨三个领域和四个地区的尼日利亚约鲁巴语方言开展研究实验,结果表明,标准尼日利亚约鲁巴语和其他方言在机器翻译、自动语音识别和语音到文本翻译等任务中存在明显的差异,在方言自适应微调的情况下,能够缩小这一差距,该研究为尼日利亚约鲁巴语及其方言以及其他非洲语言的自然语言处理工具的发展做出了重要贡献。
Jun, 2024
本文通过研究对南非低资源语言的开放词汇语言模型的表现来评估不同变种的 N 元模型、前馈神经网络、循环神经网络和 Transformers 网络。这项研究有望为非洲语言的多语种和低资源语言建模开辟新的研究途径。
Apr, 2021
通过多语言预训练、智能数据增强策略以及在多种非洲口音上微调多语言自动语音识别模型,解决使用非洲人名时自动语音识别模型性能下降的问题。相比基准样本,在使用非洲人名的样本上精度相对错误率改善了 81.5%。
Jun, 2023
本篇研究的目标是创建一个通用的情感词典(lexicon)来判断以 Igbo 语言写成的文件的情感,而无需将其翻译成英语。该研究使用 Liu 自动翻译的词典和手动添加的 Igbo 本地词汇构建了一个名为 IgboSentilex 的情感词典,并在 BBC Igbo 新闻频道进行了性能测试。结果表明,与其他通用情感词典相比,平均极性一致性高达 95.75%。
Apr, 2020
研究探索了 Kiswahili 语音文本的转录和 Kiswahili 语音语料库的开发,提供了 CMU Sphinx 语音识别工具箱创建的 Kiswahili 音素字典,以及使用扩展的音位集培训的 ASR 模型,使得模型优于以前类似研究的表现,并可在听障者中实现其母语的转录。
Oct, 2022