SpokeN-100：一个多语言口语数字分类基准数据集

Mar, 2024

SpokeN-100：一个多语言口语数字分类基准数据集

SpokeN-100: A Cross-Lingual Benchmarking Dataset for The Classification of Spoken Numbers in Different Languages

René Groh, Nina Goes, Andreas M. Kist

TL;DR我们引入了一个新颖的、完全人工生成的适用于资源受限设备上执行的紧凑深度学习模型的性能评估和优化的基准数据集，该数据集特定用于语音识别，代表了微型深度学习领域中的一个核心挑战。SpokeN-100 数据集由 32 位不同说话者以四种不同语言（英语、普通话、德语和法语）发音的从 0 到 99 的数字组成，共包含 12,800 个音频样本。我们确定了听觉特征，并使用 UMAP 作为降维方法，展示了数据集的多样性和丰富性。为了突出数据集的应用案例，我们引入了两个基准任务：给定一个音频样本，分类（i）所使用的语言和 / 或（ii）所说的数字。我们对最先进的深度神经网络进行了优化，并进行了进化神经架构搜索，以找到适用于 32 位 ARM Cortex-M4 nRF52840 微控制器的紧凑架构。我们的结果是 SpokeN-100 数据集所达到的第一个基准数据。

Abstract

benchmarking plays a pivotal role in assessing and enhancing the performance of compact deep learning models designed for execution on resource-constrained devices, such as microcontrollers. Our study introduces

benchmarking compact deep learning models resource-constrained devices speech recognition spoken-100 dataset

发现论文，激发创造

VoxLingua107：一个口语识别数据集

本文研究了利用网络音频数据自动识别口语语言的任务。通过从特定语言的 Wikipedia 数据中生成半随机搜索短语，并从 YouTube 中检索视频来提取具有语音的视频片段，并使用语音活动检测和说话人分离提取包含语音的视频片段，最终构建了可用于多种口语识别任务的语言识别模型，自动检索的数据结果优于使用手工标记的专有数据集。

Nov, 2020

2021 年零资源语音基准：自监督口语建模的度量和基线

本文介绍了一项新的无监督任务：口语语言建模并给出了 Zero Resource Speech Benchmark 2021，使用 4 个黑盒子零炮弹指标对 4 个语言层面的学习模型的质量进行测量，包括语音、词汇、语法和语义，并基于 CPC、聚类和语言建模的三个无监督系统的复合基线的结果和分析。该语言建模基于聚类学习产生的伪文本，表明了从原始语音中建立口语语言建模的可行性，但这种简单管道与文本为基础的 “顶线” 系统相比，性能较差，需要使用更复杂的端到端模型来探索。

Nov, 2020

零资源混合语言音频基准测试：使用语音句对进行多种口语语言测试

我们介绍了一个新的零资源代码切换语音基准，旨在直接评估自我监督语音编码器的代码切换能力。我们展示了一个以离散单元上的语言建模为基线系统，以演示如何以零资源的方式评估语音编码器的代码切换能力。我们的实验包括多种知名的语音编码器，包括 Wav2vec 2.0、HuBERT、XLSR 等。我们研究了预训练语言和模型大小对基准性能的影响。值得注意的是，尽管我们的结果表明，在代码切换场景中，具有多语言预训练的语音编码器（如 XLSR）优于单语变体（Wav2vec 2.0、HuBERT），但它们的代码切换语言能力仍有很大的改进空间。

Oct, 2023

零资源语音挑战赛 2021: 口语语言建模

该研究提出了 Zero Resource Speech Challenge 2021 语音挑战赛，要求参与者直接从音频中学习语言模型，无需任何文本或标签，并提供了一种基于对比性预测编码器、量化器和标准语言模型的管道基线系统。

Apr, 2021

SD-Eval: 口语对话理解的基准数据集超越文本

为了评估和改进大型语言模型在口语对话理解和生成方面的能力，我们提出了 SD-Eval 标准数据集，该数据集聚合了代表情感、口音、年龄和背景声音的四个维度的 7,303 个话语，总计 8.76 个小时的语音数据，并通过客观和主观评估方法，以及基于大型语言模型的指标，证明了在任务定义和模型开发中使用语音的附加信息可以显著提高生成响应的质量。

Jun, 2024

基于 Transformer 的模型在法语口语理解任务上的基准测试

本研究采用新的基准测试方法，重点评估了 13 种 Transformer 模型在两个已有的法语口语理解任务中的质量和其生态影响，并证明了压缩模型可以取得较大模型相似的结果，同时具有较小的生态环境影响。

Jul, 2022

SLUE: 自然语音口语理解评估新基准任务

创建适用于口语理解评估的基准任务套件，其中包括命名实体识别、情感分析和语音识别，用于跟踪进展，评估预先训练的表示形式，研究管道与端到端方法的效用。

Nov, 2021

XTREME-S: 评估跨语言语音表示

该文章介绍了新的 XTREME-S 基准测试，其涉及语音识别，分类，语音到文本翻译和检索四大任务类别。该基准测试覆盖了 10 多种语言家族的 102 种语言与 3 个不同领域和 4 个任务家族，旨在简化多语言语音表示评估，并以 XLS-R 和 mSLAM 在所有下游任务中建立了第一个仅语音和语音文本基线。同时该基准测试旨在推动对 “通用” 的语音表示学习的研究，数据集和微调脚本可在提供的网址进行访问。

Mar, 2022

AudioBench：一个音频大语言模型通用基准测试

通过提供相关数据集和评估指标，我们引入了 AudioBench，这是一个旨在评估语音大型语言模型（AudioLLMs）的新基准。我们在研究中评估了四个模型的能力，并发现没有单一模型在所有任务中都表现出色。我们概述了 AudioLLMs 的研究展望，并预计我们的开源代码、数据和排行榜将为未来模型发展提供一个强大的测试平台。

Jun, 2024

衡量统计语言模型进展的十亿词基准

该论文提出了一种新的基准语料库，用于衡量统计语言建模的进展，探讨了多种语言模型的性能表现，通过使用长短时记忆模型，降低模型复杂度来改善模型性能，实现了对语言模型的快速评估，并提出了相应的语言模型技巧，解决了语言建模中存在的困难。

Dec, 2013