利用 wav2vec 2.0 检测口吃治疗中的语音障碍

Apr, 2022

利用 wav2vec 2.0 检测口吃治疗中的语音障碍

Detecting Dysfluencies in Stuttering Therapy Using wav2vec 2.0

Sebastian P. Bayerl, Dominik Wagner, Elmar Nöth, Korbinian Riedhammer

TL;DR通过使用最新的波形神经网络技术（wav2vec 2.0）并结合多任务学习，对一个英文语料库中的口吃病识别进行了研究，并在语音识别技术和口吃治疗领域有重要应用。

Abstract

stuttering is a varied speech disorder that harms an individual's communication ability. Persons who stutter (PWS) often use speech therapy to cope with their condition. Improving →

stuttering speech therapy speech recognition systems fine-tuning wav2vec 2.0

发现论文，激发创造

基于 Wav2vec 的言语智能识别与严重程度分类 —— 以口吃为例

通过使用预训练的 wav2vec 2.0 模型作为特征提取器，本研究对发音困难症的声学语音信号进行了自动检测和严重程度分类，结果表明使用 wav2vec 模型的第一层嵌入特征在准确度上相较于基线特征（声谱图）提升了 1.23%，在严重程度分类任务中最终层的嵌入特征相较于基线特征（梅尔频率倒谱系数）提升了 10.62%。

Sep, 2023

集中力的耳语：通过编码器层优化增强口吃语音分类

近年来，在语音处理领域的进展已经引发出具有巨大潜力的尖端深度学习算法，而自动识别口吃症言语是这些研究者采用深度学习技术所致力解决的应用之一。本研究通过旨在聚焦于高效解决方案的重要贡献，解开了 Whisper 在口吃症言语类型分类上的能力，并对较深层编码器的重要性进行了探究。

Nov, 2023

基于深度学习的口吃诊断和治疗系统

本文介绍了使用门控递归 CNN 和 SVM 实现口吃诊断代理和治疗推荐代理的系统，并探讨了其实验结果和关键发现。

Jul, 2020

口吃往往不是孤立的事件 —— 将口吃检测作为多标签问题的跨语料库研究

本文探讨了用基于注意力机制分类器和多任务学习的改进 wav2vec 2.0 系统，将口吃的检测方法作为多标签问题进行的多语言和跨语料库端到端口吃检测。通过使用包含英语和德语口吃语音的三个数据集的组合以及包含流利塑形的语音的一个数据集来评估方法。实验结果和误差分析表明，跨语料库和多语言数据训练的多标签口吃检测系统取得了有竞争力的结果，但是对多标签样本的性能低于总体检测结果。

May, 2023

利用 wav2vec 2.0 进行 L2 口语英语的熟练度评估

本研究通过研究两个小数据集，其中一个是公开的，探讨使用 wav2vec 2.0 对英语口语能力的整体和各方面进行评估的可行性，相对于基于 ASR 和手动转录训练的 BERT 基准系统，发现此方法有很大的提升。

Oct, 2022

数据集划分对口吃检测系统的影响

本文研究了不同的数据分割和分割策略对口吃检测系统性能的影响，并使用 wav2vec 2.0 模型和支持矢量机 (SVM) 来检测口吃现象。我们使用 Stuttering Events in Podcasts (SEP-28k) 数据集中的不同非专属和专属分割进行训练和评估，以揭示结果与使用的分区方法的变异性，并证明 SEP-28k 数据集只由很少的演讲者占据，难以评估。为了解决这个问题，我们创建了 SEP-28k-Extended (SEP-28k-E)，其中包含 SEP-28k 语料库的半自动生成的演讲者和性别信息，并建议不同的数据分割，每个分割都有助于评估口吃检测方法的其他方面。

Jun, 2022

KSoF: 卡塞尔流利度状况数据集 —— 以口吃为中心的治疗数据集

本论文介绍了基于治疗的数据集 Kassel State of Fluency (KSoF)，其中包含了超过 5500 个人的口吃治疗过程语音记录。这些记录标注了六种与口吃相关的事件类型，可用于研究监测和干预早期复发的可能性。

Mar, 2022

面向非流畅语音的包容性自动语音识别：级联大规模自监督学习与目标微调和数据增强

自动语音识别系统通常在处理口吃相关的流畅性障碍时出现故障，而这些故障包括意愿性中断和单词重复，从而导致不准确的转录。我们提出了一种包容性的 ASR 设计方法，利用标准语音的大规模自我监督学习，然后通过对较小的策划语音数据集进行有针对性的微调和数据增强来解决此问题。我们的数据增强技术可以通过增加各种不流畅性来丰富训练数据集，增强对这些语音模式的 ASR 处理。结果表明，即使是对于一个相对较小的标记数据集，结合数据增强，通过微调 wav2vec 2.0 也可以显著降低不流畅语音的单词错误率。我们的方法不仅推动了面向口吃者的 ASR 包容性，而且为能够适应更广泛的语音变化的 ASR 铺平了道路。

Jun, 2024

大型语言模型用于口吃语音的错断检测

通过将自动语音识别系统生成的假设候选项和从音频编码模型提取的声学表示输入到大型语言模型（LLMs）中，我们将多标签异味检测任务作为一种语言建模问题进行了研究，并在包含英语和德语结巴语音的三个数据集上对系统进行了优化，以预测异味标签，实验结果表明我们的系统有效地结合声学和词法信息，在多标签结巴检测任务上取得了有竞争力的结果。

Jun, 2024

机器学习用于口吃识别：综述、挑战和未来方向

本文综合检视声学特征、深度学习和统计学为基础的口吃障碍分类方法，针对口吃识别这一已有研究空白，通过跨学科研究来填补这个空缺，并提出未来可能的挑战和发展方向。

Jul, 2021