利用 wav2vec 2.0 检测口吃治疗中的语音障碍
通过使用预训练的 wav2vec 2.0 模型作为特征提取器,本研究对发音困难症的声学语音信号进行了自动检测和严重程度分类,结果表明使用 wav2vec 模型的第一层嵌入特征在准确度上相较于基线特征(声谱图)提升了 1.23%,在严重程度分类任务中最终层的嵌入特征相较于基线特征(梅尔频率倒谱系数)提升了 10.62%。
Sep, 2023
近年来,在语音处理领域的进展已经引发出具有巨大潜力的尖端深度学习算法,而自动识别口吃症言语是这些研究者采用深度学习技术所致力解决的应用之一。本研究通过旨在聚焦于高效解决方案的重要贡献,解开了 Whisper 在口吃症言语类型分类上的能力,并对较深层编码器的重要性进行了探究。
Nov, 2023
本文探讨了用基于注意力机制分类器和多任务学习的改进 wav2vec 2.0 系统,将口吃的检测方法作为多标签问题进行的多语言和跨语料库端到端口吃检测。通过使用包含英语和德语口吃语音的三个数据集的组合以及包含流利塑形的语音的一个数据集来评估方法。实验结果和误差分析表明,跨语料库和多语言数据训练的多标签口吃检测系统取得了有竞争力的结果,但是对多标签样本的性能低于总体检测结果。
May, 2023
本研究通过研究两个小数据集,其中一个是公开的,探讨使用 wav2vec 2.0 对英语口语能力的整体和各方面进行评估的可行性,相对于基于 ASR 和手动转录训练的 BERT 基准系统,发现此方法有很大的提升。
Oct, 2022
本文研究了不同的数据分割和分割策略对口吃检测系统性能的影响,并使用 wav2vec 2.0 模型和支持矢量机 (SVM) 来检测口吃现象。我们使用 Stuttering Events in Podcasts (SEP-28k) 数据集中的不同非专属和专属分割进行训练和评估,以揭示结果与使用的分区方法的变异性,并证明 SEP-28k 数据集只由很少的演讲者占据,难以评估。为了解决这个问题,我们创建了 SEP-28k-Extended (SEP-28k-E),其中包含 SEP-28k 语料库的半自动生成的演讲者和性别信息,并建议不同的数据分割,每个分割都有助于评估口吃检测方法的其他方面。
Jun, 2022
本论文介绍了基于治疗的数据集 Kassel State of Fluency (KSoF),其中包含了超过 5500 个人的口吃治疗过程语音记录。这些记录标注了六种与口吃相关的事件类型,可用于研究监测和干预早期复发的可能性。
Mar, 2022
自动语音识别系统通常在处理口吃相关的流畅性障碍时出现故障,而这些故障包括意愿性中断和单词重复,从而导致不准确的转录。我们提出了一种包容性的 ASR 设计方法,利用标准语音的大规模自我监督学习,然后通过对较小的策划语音数据集进行有针对性的微调和数据增强来解决此问题。我们的数据增强技术可以通过增加各种不流畅性来丰富训练数据集,增强对这些语音模式的 ASR 处理。结果表明,即使是对于一个相对较小的标记数据集,结合数据增强,通过微调 wav2vec 2.0 也可以显著降低不流畅语音的单词错误率。我们的方法不仅推动了面向口吃者的 ASR 包容性,而且为能够适应更广泛的语音变化的 ASR 铺平了道路。
Jun, 2024
通过将自动语音识别系统生成的假设候选项和从音频编码模型提取的声学表示输入到大型语言模型(LLMs)中,我们将多标签异味检测任务作为一种语言建模问题进行了研究,并在包含英语和德语结巴语音的三个数据集上对系统进行了优化,以预测异味标签,实验结果表明我们的系统有效地结合声学和词法信息,在多标签结巴检测任务上取得了有竞争力的结果。
Jun, 2024
本文综合检视声学特征、深度学习和统计学为基础的口吃障碍分类方法,针对口吃识别这一已有研究空白,通过跨学科研究来填补这个空缺,并提出未来可能的挑战和发展方向。
Jul, 2021