SEP-28k:面向带口吃者的播客口吃事件检测数据集
本文研究了不同的数据分割和分割策略对口吃检测系统性能的影响,并使用 wav2vec 2.0 模型和支持矢量机 (SVM) 来检测口吃现象。我们使用 Stuttering Events in Podcasts (SEP-28k) 数据集中的不同非专属和专属分割进行训练和评估,以揭示结果与使用的分区方法的变异性,并证明 SEP-28k 数据集只由很少的演讲者占据,难以评估。为了解决这个问题,我们创建了 SEP-28k-Extended (SEP-28k-E),其中包含 SEP-28k 语料库的半自动生成的演讲者和性别信息,并建议不同的数据分割,每个分割都有助于评估口吃检测方法的其他方面。
Jun, 2022
通过使用最新的波形神经网络技术(wav2vec 2.0)并结合多任务学习,对一个英文语料库中的口吃病识别进行了研究,并在语音识别技术和口吃治疗领域有重要应用。
Apr, 2022
本论文介绍了基于治疗的数据集 Kassel State of Fluency (KSoF),其中包含了超过 5500 个人的口吃治疗过程语音记录。这些记录标注了六种与口吃相关的事件类型,可用于研究监测和干预早期复发的可能性。
Mar, 2022
通过引入 AS-70,首个公开可用的普通话口吃语音数据集,本研究旨在改善自动语音识别(ASR)模型在口吃语音上表现的效果。该数据集包括对话和语音命令朗读内容的逐字手工转录,适用于多种与语音相关的任务。实验结果表明,通过将此数据集应用于模型微调,可以显著改善现有 ASR 模型的性能,提高了对口吃语音的包容性。
Jun, 2024
自动语音识别系统通常在处理口吃相关的流畅性障碍时出现故障,而这些故障包括意愿性中断和单词重复,从而导致不准确的转录。我们提出了一种包容性的 ASR 设计方法,利用标准语音的大规模自我监督学习,然后通过对较小的策划语音数据集进行有针对性的微调和数据增强来解决此问题。我们的数据增强技术可以通过增加各种不流畅性来丰富训练数据集,增强对这些语音模式的 ASR 处理。结果表明,即使是对于一个相对较小的标记数据集,结合数据增强,通过微调 wav2vec 2.0 也可以显著降低不流畅语音的单词错误率。我们的方法不仅推动了面向口吃者的 ASR 包容性,而且为能够适应更广泛的语音变化的 ASR 铺平了道路。
Jun, 2024
介绍了一个新的开放音频数据集 FSD50K,其包含了来自 AudioSet 本体中的 200 个分类中的超过 51k 个手动标记的音频片段,旨在成为声音事件识别(SER)领域的新开放基准数据集。
Oct, 2020
本文提出了一个基于 VAD 和 ASR 识别填充词的管道,并利用分类器区分不同类型,使用 PodcastFillers 数据集验证其有效性,最终成果为一个基准用于未来相关研究。
Mar, 2022
本文探讨了用基于注意力机制分类器和多任务学习的改进 wav2vec 2.0 系统,将口吃的检测方法作为多标签问题进行的多语言和跨语料库端到端口吃检测。通过使用包含英语和德语口吃语音的三个数据集的组合以及包含流利塑形的语音的一个数据集来评估方法。实验结果和误差分析表明,跨语料库和多语言数据训练的多标签口吃检测系统取得了有竞争力的结果,但是对多标签样本的性能低于总体检测结果。
May, 2023
本文综合检视声学特征、深度学习和统计学为基础的口吃障碍分类方法,针对口吃识别这一已有研究空白,通过跨学科研究来填补这个空缺,并提出未来可能的挑战和发展方向。
Jul, 2021
本文研究了利用网络音频数据自动识别口语语言的任务。通过从特定语言的 Wikipedia 数据中生成半随机搜索短语,并从 YouTube 中检索视频来提取具有语音的视频片段,并使用语音活动检测和说话人分离提取包含语音的视频片段,最终构建了可用于多种口语识别任务的语言识别模型,自动检索的数据结果优于使用手工标记的专有数据集。
Nov, 2020