Mar, 2024

SpokeN-100:一个多语言口语数字分类基准数据集

TL;DR我们引入了一个新颖的、完全人工生成的适用于资源受限设备上执行的紧凑深度学习模型的性能评估和优化的基准数据集,该数据集特定用于语音识别,代表了微型深度学习领域中的一个核心挑战。SpokeN-100 数据集由 32 位不同说话者以四种不同语言(英语、普通话、德语和法语)发音的从 0 到 99 的数字组成,共包含 12,800 个音频样本。我们确定了听觉特征,并使用 UMAP 作为降维方法,展示了数据集的多样性和丰富性。为了突出数据集的应用案例,我们引入了两个基准任务:给定一个音频样本,分类(i)所使用的语言和 / 或(ii)所说的数字。我们对最先进的深度神经网络进行了优化,并进行了进化神经架构搜索,以找到适用于 32 位 ARM Cortex-M4 nRF52840 微控制器的紧凑架构。我们的结果是 SpokeN-100 数据集所达到的第一个基准数据。