SEP-28k：面向带口吃者的播客口吃事件检测数据集

Feb, 2021

SEP-28k：面向带口吃者的播客口吃事件检测数据集

SEP-28k: A Dataset for Stuttering Event Detection From Podcasts With People Who Stutter

Colin Lea, Vikramjit Mitra, Aparna Joshi, Sachin Kajarekar, Jeffrey P. Bigham

TL;DR本研究介绍了一个包含超过 28k 个剪辑的数据集，用于自动检测语言中的口吃事件，并通过将其用于声学模型的训练演示了数据集的有效性。

Abstract

The ability to automatically detect stuttering events in speech could help speech pathologists track an individual's fluency over time or help improve speech recognition systems for people with atypical speech pa

stuttering speech recognition dataset acoustic models annotations

发现论文，激发创造

数据集划分对口吃检测系统的影响

本文研究了不同的数据分割和分割策略对口吃检测系统性能的影响，并使用 wav2vec 2.0 模型和支持矢量机 (SVM) 来检测口吃现象。我们使用 Stuttering Events in Podcasts (SEP-28k) 数据集中的不同非专属和专属分割进行训练和评估，以揭示结果与使用的分区方法的变异性，并证明 SEP-28k 数据集只由很少的演讲者占据，难以评估。为了解决这个问题，我们创建了 SEP-28k-Extended (SEP-28k-E)，其中包含 SEP-28k 语料库的半自动生成的演讲者和性别信息，并建议不同的数据分割，每个分割都有助于评估口吃检测方法的其他方面。

Jun, 2022

利用 wav2vec 2.0 检测口吃治疗中的语音障碍

通过使用最新的波形神经网络技术（wav2vec 2.0）并结合多任务学习，对一个英文语料库中的口吃病识别进行了研究，并在语音识别技术和口吃治疗领域有重要应用。

Apr, 2022

KSoF: 卡塞尔流利度状况数据集 —— 以口吃为中心的治疗数据集

本论文介绍了基于治疗的数据集 Kassel State of Fluency (KSoF)，其中包含了超过 5500 个人的口吃治疗过程语音记录。这些记录标注了六种与口吃相关的事件类型，可用于研究监测和干预早期复发的可能性。

Mar, 2022

AS-70：一份供自动语音识别和口吃事件检测使用的普通话口吃语音数据集

通过引入 AS-70，首个公开可用的普通话口吃语音数据集，本研究旨在改善自动语音识别（ASR）模型在口吃语音上表现的效果。该数据集包括对话和语音命令朗读内容的逐字手工转录，适用于多种与语音相关的任务。实验结果表明，通过将此数据集应用于模型微调，可以显著改善现有 ASR 模型的性能，提高了对口吃语音的包容性。

Jun, 2024

面向非流畅语音的包容性自动语音识别：级联大规模自监督学习与目标微调和数据增强

自动语音识别系统通常在处理口吃相关的流畅性障碍时出现故障，而这些故障包括意愿性中断和单词重复，从而导致不准确的转录。我们提出了一种包容性的 ASR 设计方法，利用标准语音的大规模自我监督学习，然后通过对较小的策划语音数据集进行有针对性的微调和数据增强来解决此问题。我们的数据增强技术可以通过增加各种不流畅性来丰富训练数据集，增强对这些语音模式的 ASR 处理。结果表明，即使是对于一个相对较小的标记数据集，结合数据增强，通过微调 wav2vec 2.0 也可以显著降低不流畅语音的单词错误率。我们的方法不仅推动了面向口吃者的 ASR 包容性，而且为能够适应更广泛的语音变化的 ASR 铺平了道路。

Jun, 2024

FSD50K：一个带有人工标记的声音事件开放数据集

介绍了一个新的开放音频数据集 FSD50K，其包含了来自 AudioSet 本体中的 200 个分类中的超过 51k 个手动标记的音频片段，旨在成为声音事件识别（SER）领域的新开放基准数据集。

Oct, 2020

填充词检测与分类：一个数据集和基准

本文提出了一个基于 VAD 和 ASR 识别填充词的管道，并利用分类器区分不同类型，使用 PodcastFillers 数据集验证其有效性，最终成果为一个基准用于未来相关研究。

Mar, 2022

口吃往往不是孤立的事件 —— 将口吃检测作为多标签问题的跨语料库研究

本文探讨了用基于注意力机制分类器和多任务学习的改进 wav2vec 2.0 系统，将口吃的检测方法作为多标签问题进行的多语言和跨语料库端到端口吃检测。通过使用包含英语和德语口吃语音的三个数据集的组合以及包含流利塑形的语音的一个数据集来评估方法。实验结果和误差分析表明，跨语料库和多语言数据训练的多标签口吃检测系统取得了有竞争力的结果，但是对多标签样本的性能低于总体检测结果。

May, 2023

机器学习用于口吃识别：综述、挑战和未来方向

本文综合检视声学特征、深度学习和统计学为基础的口吃障碍分类方法，针对口吃识别这一已有研究空白，通过跨学科研究来填补这个空缺，并提出未来可能的挑战和发展方向。

Jul, 2021

VoxLingua107：一个口语识别数据集

本文研究了利用网络音频数据自动识别口语语言的任务。通过从特定语言的 Wikipedia 数据中生成半随机搜索短语，并从 YouTube 中检索视频来提取具有语音的视频片段，并使用语音活动检测和说话人分离提取包含语音的视频片段，最终构建了可用于多种口语识别任务的语言识别模型，自动检索的数据结果优于使用手工标记的专有数据集。

Nov, 2020