改善 Yorùbá 重音恢复

ICLRMar, 2020

Improving Yorùbá Diacritic Restoration

Iroro Orife, David I. Adelani, Timi Fasubaa, Victor Williamson, Wuraola Fisayo Oyewusi...

TL;DR近年来，我们通过聚合和改进来自互联网和各种个人图书馆的不同文本，使我们的干净的 Yoruba 数据集从以 Bibilical 文本语料库为主，来源有三个，增长到来自十多个来源的数百万标记。我们评估了对现代新闻文本进行多用途选择和反映当代使用的公共领域 Yoruba 评估数据集上的更新的变音恢复模型。所有预训练的模型、数据集和源代码都已作为开源项目发布，以推进 Yoruba 语言技术的发展。

Abstract

Yor\`ub\'a is a widely spoken West African language with a writing system rich in orthographic and tonal diacritics. They provide morphological information, are crucial for lexical disambiguation, pronunciation and are vital for any computational Speech or Natural Language Processing tasks. However →

yoruba language diacritic marks dataset cultivation diacritic restoration models language technology

发现论文，激发创造

基于注意力机制的序列到序列学习在 Yorùbá 语文本的音标恢复中的应用

本论文提出了两种不同的基于注意力机制的序列到序列神经网络模型来处理未带变音符的约鲁巴语文本，将自动变音符恢复重新定位为机器翻译任务。在评估数据集上，这种方法产生少于 5％的变音符错误率，并开源了预训练模型、数据集和源代码项目，以推进约鲁巴语言技术的努力。

Apr, 2018

声音未听到：为约鲁巴地区方言提供的自然语言处理资源和模型

用高质量的平行文本和语音语料库 (YORÙLECT) 跨三个领域和四个地区的尼日利亚约鲁巴语方言开展研究实验，结果表明，标准尼日利亚约鲁巴语和其他方言在机器翻译、自动语音识别和语音到文本翻译等任务中存在明显的差异，在方言自适应微调的情况下，能够缩小这一差距，该研究为尼日利亚约鲁巴语及其方言以及其他非洲语言的自然语言处理工具的发展做出了重要贡献。

Jun, 2024

Yorùbá-English 神经机器翻译中领域和重音的影响

本研究提出了 MENYO-20k，这是一个首个多领域平行语料库，专注于干净的约鲁巴语和英语，为基准测试提供标准化的训练集 - 测试集划分。研究人员提供了几个神经机器翻译基准测试，并将它们与流行的预训练（大规模多语种）机器翻译模型的性能进行了比较。出乎意料的是，他们的模型效果超过了谷歌（+8.7 BLEU）和 Facebook M2M（+9.1 BLEU）这样的大规模多语种模型，为未来的研究设定了高质量的基准。

Mar, 2021

低资源语言中的大规模与策划嵌入比较：以约鲁巴语和特威语为例

本论文针对两种非洲语言 —— 约鲁巴语和特威语，通过比较由无标注文本学习的词向量和有标注文本学习的词向量，以及不同深度学习模型的表现，分析公开语料库中的噪声，并收集了高质量的语料库数据和相应的测试套件，最终提供了这两种语言的语料库、嵌入向量和测试套件。

Dec, 2019

通过选择性字音符复原进行多义字消歧

本文提出了一种自动标记一部分词汇以进行音标恢复的方法，从而实现有选择性的同形词消除，并将其在神经机器翻译、词性标注和语义文本相似度等下游应用中进行了评估。

Dec, 2019

语音数据集的自动重音恢复

使用预训练的 Whisper ASR 模型和基于 transformer 的音标恢复模型，从口语数据中生成粗略音标化的转录文本，作为额外输入，提高了自动音标恢复的性能。通过在同一领域和两个领域外测试集上进行实验证明，该模型相较于仅使用文本的等效模型，至少可以降低 5% 的音标错误率。这些结果凸显了当前基于文本的音标恢复模型在口语数据集上的不足，并为基于口语的音标恢复提供了新的基准。

Nov, 2023

YFACC: 通过视觉基础定位实现跨语关键字本地化的 Yorùbá 语言语音和图像数据集

本文介绍了一种基于注意力机制的 VGS 模型，通过将图像与 Yorùbá 语言的话语配对并自动标记英文视觉标签，实现了跨语言关键词定位，以解决新兴语种的语音系统数据不足的问题。

Oct, 2022

使用 ByT5 转换器模型纠正变音符号和错别字

本研究使用新开发的通用 ByT5 字节级 seq2seq transformer 模型，同时解决语言中的变音符号恢复和拼写错误的问题，在 13 种语言中展现强大的表现，相较于传统的拼写检查或基于词典的方法表现更佳。

Jan, 2022

IgboAPI 数据集：通过多方言丰富增强 Igbo 语言技术

为了发展 Igbo 语言的语言技术以促进沟通、学习和保护，本研究通过构建多方言的 Igbo-API 数据集，并应用于 Igbo 语义词典和机器翻译的研究中，有效地解决了 Igbo 语言技术面临的方言差异问题。

May, 2024

ÌròyìnSpeech：一个多功能的约鲁巴语语音语料库

引入了 IroyinSpeech 语料库 - 这是一个受影响于希望增加高质量、免费、当代的约鲁巴语言音频的愿望的新数据集。我们发布了一个多用途数据集，可用于 TTS 和 ASR 任务，并从新闻和创意写作领域中的文本句子进行筛选，使用开放许可证 CC-BY-4.0，并让 80 名志愿者录制了该数据集的 38.5 小时内容。

Jul, 2023