AfroDigits：一个面向非洲语言的社区驱动口语数字数据集

ICLRMar, 2023

AfroDigits：一个面向非洲语言的社区驱动口语数字数据集

AfroDigits: A Community-Driven Spoken Digit Dataset for African Languages

Chris Chinenye Emezue, Sanchit Gandhi, Lewis Tunstall, Abubakar Abid, Joshua Meyer...

TL;DR该文章介绍了 AfroDigits 数据集，这是一个社区驱动的包含 38 种非洲语言的最小化 data-set，用于解决语音技术在非洲语言中的局限性，在使用 Wav2Vec2.0-Large 和 XLS-R 模型的实验中显示了洲际混合语音库对对象识别的影响。

Abstract

The advancement of speech technologies has been remarkable, yet its integration with african languages remains limited due to the scarcity of African speech corpora. To address this issue, we present

speech technologies african languages afrodigits audio digit classification dataset

发现论文，激发创造

Afro-MNIST: 合成 MNIST 风格的数据集，用于低资源语言

介绍 Afro-MNIST 合成数据集及其用途，以及一种基于单个数字示例生成 MNIST 风格数据集的方法，并希望激励其他数字符号系统的科学研究。

Sep, 2020

OkwuGbé: Fon 和 Igbo 的端到端语音识别

该研究建立了一个端到端、基于深度神经网络的语音识别模型，用于非洲的低资源语言 Fon 和 Igbo，该研究为 Fon 和 Igbo 提供了有价值的洞见，同时为非洲的其他低资源语言的语音识别模型的创建提供指导。

Mar, 2021

AfriSenti：针对非洲语言的 Twitter 情感分析基准

本文介绍了 AfriSenti 数据集，该数据集由 14 种非洲语言的 110,000 多个推文组成，为四个语系中的 14 种非洲语言提供了 14 个情感数据集，并由母语为非洲语的人进行了注释。它用于 SemEval 2023 任务 12，这是第一个非洲中心的 SemEval 共享任务，并描述了数据收集方法，注释过程以及策划每个数据集时遇到的相关挑战。

Feb, 2023

面向非洲语言的大词汇量语音识别：多语言建模和自监督学习

应用多语言模型和自监督学习方法进行预训练和汇集可用数据来提高语音识别质量，为非洲语言建立大词汇量语音识别系统。

Aug, 2022

AfriWOZ: 利用跨语言可传递性生成低资源非洲语言对话的语料库

本文介绍了针对非洲语言首次提供的高质量对话数据集，并通过深度单语模型 DialoGPT 和 BlenderBot 以及基准模型 seq2seq 对其进行建模，利用重叠度进行效果分析，同时通过人类评估方法验证其有效性，发现深度单语模型可以学习一些泛化跨语言的抽象，人类得分最高的是奈及利亚皮钦英语。

Apr, 2022

赞比西之声：赞比亚语言的多语言语音语料库

Zambezi Voice 为挖掘两个不同语音来源的 Zambian 众所周知，首次推出了适用于 Zambian 语言的多语言语音数据集，可用于监督和非监督的学习方法，同时利用 Wav2Vec2.0 模型进行预训练和跨语言迁移学习，构建出基于端到端的语音识别模型。

Jun, 2023

1000 名非洲人的声音：推进包容性多说话者多口音语音合成

Afro-TTS 是第一个能够在 86 种非洲口音中生成语音的泛非洲口音英语语音合成系统，包含了代表该大陆丰富的音韵多样性的 1000 个人物形象，可用于教育、公共卫生和自动内容创作。说话者插值保持了自然和口音特点，使得能够创造新的声音。

Jun, 2024

AfroLID: 非洲语言的神经语言识别工具

介绍了 AfroLID，一种对 517 种非洲语言进行语言识别的神经工具包，它利用了跨足 14 个语言家族和 5 个拼写系统的多域 Web 数据集，取得了 95.89 的 F1 分数，并在 Twitter 领域得到了验证。

Oct, 2022

IgboAPI 数据集：通过多方言丰富增强 Igbo 语言技术

为了发展 Igbo 语言的语言技术以促进沟通、学习和保护，本研究通过构建多方言的 Igbo-API 数据集，并应用于 Igbo 语义词典和机器翻译的研究中，有效地解决了 Igbo 语言技术面临的方言差异问题。

May, 2024

SpokeN-100：一个多语言口语数字分类基准数据集

我们引入了一个新颖的、完全人工生成的适用于资源受限设备上执行的紧凑深度学习模型的性能评估和优化的基准数据集，该数据集特定用于语音识别，代表了微型深度学习领域中的一个核心挑战。SpokeN-100 数据集由 32 位不同说话者以四种不同语言（英语、普通话、德语和法语）发音的从 0 到 99 的数字组成，共包含 12,800 个音频样本。我们确定了听觉特征，并使用 UMAP 作为降维方法，展示了数据集的多样性和丰富性。为了突出数据集的应用案例，我们引入了两个基准任务：给定一个音频样本，分类（i）所使用的语言和 / 或（ii）所说的数字。我们对最先进的深度神经网络进行了优化，并进行了进化神经架构搜索，以找到适用于 32 位 ARM Cortex-M4 nRF52840 微控制器的紧凑架构。我们的结果是 SpokeN-100 数据集所达到的第一个基准数据。

Mar, 2024