基于 Wav2vec 的言语智能识别与严重程度分类 —— 以口吃为例

Sep, 2023

基于 Wav2vec 的言语智能识别与严重程度分类 —— 以口吃为例

Wav2vec-based Detection and Severity Level Classification of Dysarthria from Speech

Farhad Javanmardi, Saska Tirronen, Manila Kodali, Sudarsana Reddy Kadiri, Paavo Alku

TL;DR通过使用预训练的 wav2vec 2.0 模型作为特征提取器，本研究对发音困难症的声学语音信号进行了自动检测和严重程度分类，结果表明使用 wav2vec 模型的第一层嵌入特征在准确度上相较于基线特征（声谱图）提升了 1.23%，在严重程度分类任务中最终层的嵌入特征相较于基线特征（梅尔频率倒谱系数）提升了 10.62%。

Abstract

Automatic detection and severity level classification of dysarthria directly from →

dysarthria acoustic speech signals wav2vec 2.0 model detection severity level classification

发现论文，激发创造

使用自监督模型和多任务学习进行发音障碍语音的自动严重程度评估

使用自监督模型结合多任务学习的新颖自动程度评估方法在不充分的数据下对 Dysarthric 发音进行评估，该方法使用 Wav2vec 2.0 XLS-R 以及手工制作的声学特征和机器学习分类器，在 Korean dysarthric speech QoLT 数据库上相较传统基线方法提高了 1.25% 的 F1 值，并且相较于没有 ASR 头的模型提高了 10.61% 的相对百分比增长。我们还通过分析潜在表示和正则化效应来展示多任务学习如何影响重度分类表现。

Oct, 2022

在数据稀缺环境中利用 ASR 驱动的 Wav2Vec2 探索病态语音质量评估

自动语音质量评估中，由于数据稀缺，大多数研究仅在二元分类等简单任务上取得良好结果。本文提出了一种新的方法，通过采用预训练的 Wav2Vec2 架构作为语音评估中的特征提取器，将学习系统从片段级别提升至音频级别，从而建立了一个新的基准，使得只使用 95 个训练样本可以实现对可懂度和严重程度得分的预测，平均均方误差分别为 0.73 和 1.15。结果表明，基于 ASR 的 Wav2Vec2 模型带来了最佳结果，并且可能暗示了 ASR 与语音质量评估之间的强相关性。同时，我们还评估了该方法在变长片段持续时间和语音内容等因素上的影响。

Mar, 2024

利用言语障碍严重程度进行口吃性言语识别

本文提出了一套新的方法，即使用多任务训练，包含严重程度预测误差、说话者 - 严重程度感知辅助特征适应以及基于与严重度有关和说话者身份有关的 LHUC 转换来进行发音障碍语音识别，结果实验表明将额外的语音障碍严重度纳入最先进的混合 DNN、E2E Conformer 和预训练的 Wav2vec 2.0 ASR 系统，可以产生显著的 WER 下降，最低 WER 达到 17.82％。

May, 2023

利用 wav2vec 2.0 检测口吃治疗中的语音障碍

通过使用最新的波形神经网络技术（wav2vec 2.0）并结合多任务学习，对一个英文语料库中的口吃病识别进行了研究，并在语音识别技术和口吃治疗领域有重要应用。

Apr, 2022

鲁棒的声音质量特征嵌入用于失音声音检测

本研究提出了一种深度学习框架来生成对声音质量敏感且在不同语料库中具有鲁棒性的声学特征嵌入，同时将对比性损失与分类损失相结合进行训练，并使用数据膨胀方法提高模型的鲁棒性，实证结果表明，该方法不仅在语料库内和语料库间的分类准确度上表现出色，而且生成的嵌入对声音质量敏感且跨不同语料库具有鲁棒性。同时，与三种基准方法比较的结果表明，所提出的模型在干净以及损坏的语料库内和语料库间表现出一致的优异性能。

Nov, 2022

利用 wav2vec 2.0 进行 L2 口语英语的熟练度评估

本研究通过研究两个小数据集，其中一个是公开的，探讨使用 wav2vec 2.0 对英语口语能力的整体和各方面进行评估的可行性，相对于基于 ASR 和手动转录训练的 BERT 基准系统，发现此方法有很大的提升。

Oct, 2022

使用 Wav2vec 2.0 嵌入进行语音情感识别

本文提出一种基于迁移学习的语音情感识别方法，将从预训练的 wav2vec 2.0 模型中提取的特征使用简单的神经网络模型进行建模，并使用可训练的权重从多层模型中组合输出，在 IEMOCAP 和 RAVDESS 两个情感数据库上的评价表明，在情感识别性能上优于现有文献中的结果。

Apr, 2021

wav2vec: 语音识别的无监督预训练

本研究通过对原始音频进行特征学习，探索无监督的语音识别预训练方法，在大量无标注音频数据上进行训练，结果表示所得到的特征对提高声学模型训练有积极意义。在 WSJ 测试中，仅使用少量已识别数据，我们的方法成功将 WER 从传统的 log-mel filterbank 上降低了最多 36％，最终的 WER 为 2.43％，使用的标注数据量较 Deep Speech 2 少两个数量级。

Apr, 2019

基于 Wav2vec2 的口齿不清语音识别中的发音人自适应

本研究通过 fine-tuning wav2vec2 并使用 fMLLR 特征进行适应，对发音紊乱的语音识别进行了改进，实验结果表明在不同严重程度的口吃障碍情况下，该方法的识别效果相对稳定，WER 达到了 57.72%。

Apr, 2022

跨语言自监督语音表征，提高口吃症患者的语音识别能力

使用预训练 Wav2Vec、Hubert 和 XLSR 模型的声学特征训练自动语音识别系统，对患有言语障碍的英语、西班牙语和意大利语使用者进行识别，结果表明相较于 Fbank 特征，使用 XLSR 特征可将识别错误率分别降低 6.8%、22.0% 和 7.0%。

Apr, 2022