使用自监督模型和多任务学习进行发音障碍语音的自动严重程度评估

Oct, 2022

使用自监督模型和多任务学习进行发音障碍语音的自动严重程度评估

Automatic Severity Assessment of Dysarthric speech by using Self-supervised Model with Multi-task Learning

Eun Jung Yeo, Kwanghee Choi, Sunhee Kim, Minhwa Chung

TL;DR使用自监督模型结合多任务学习的新颖自动程度评估方法在不充分的数据下对 Dysarthric 发音进行评估，该方法使用 Wav2vec 2.0 XLS-R 以及手工制作的声学特征和机器学习分类器，在 Korean dysarthric speech QoLT 数据库上相较传统基线方法提高了 1.25% 的 F1 值，并且相较于没有 ASR 头的模型提高了 10.61% 的相对百分比增长。我们还通过分析潜在表示和正则化效应来展示多任务学习如何影响重度分类表现。

Abstract

automatic assessment of dysarthric speech is essential for sustained treatments and rehabilitation. However, obtaining atypical speech is challenging, often leading to data scarcity issues. To tackle the problem,

automatic assessment dysarthric speech self-supervised model multi-task learning severity classification

发现论文，激发创造

使用自监督转换和多任务学习的语音无关语言障碍严重程度分类

通过使用变压器模型与多任务学习，研究论文提出了一种自动评估口吃严重程度的新框架，并比较不同方法之间的性能，以实现客观、可重复、易接触、标准化和成本效益高的自动评估方案。

Feb, 2024

基于 Wav2vec 的言语智能识别与严重程度分类 —— 以口吃为例

通过使用预训练的 wav2vec 2.0 模型作为特征提取器，本研究对发音困难症的声学语音信号进行了自动检测和严重程度分类，结果表明使用 wav2vec 模型的第一层嵌入特征在准确度上相较于基线特征（声谱图）提升了 1.23%，在严重程度分类任务中最终层的嵌入特征相较于基线特征（梅尔频率倒谱系数）提升了 10.62%。

Sep, 2023

跨语言自监督语音表征，提高口吃症患者的语音识别能力

使用预训练 Wav2Vec、Hubert 和 XLSR 模型的声学特征训练自动语音识别系统，对患有言语障碍的英语、西班牙语和意大利语使用者进行识别，结果表明相较于 Fbank 特征，使用 XLSR 特征可将识别错误率分别降低 6.8%、22.0% 和 7.0%。

Apr, 2022

利用言语障碍严重程度进行口吃性言语识别

本文提出了一套新的方法，即使用多任务训练，包含严重程度预测误差、说话者 - 严重程度感知辅助特征适应以及基于与严重度有关和说话者身份有关的 LHUC 转换来进行发音障碍语音识别，结果实验表明将额外的语音障碍严重度纳入最先进的混合 DNN、E2E Conformer 和预训练的 Wav2vec 2.0 ASR 系统，可以产生显著的 WER 下降，最低 WER 达到 17.82％。

May, 2023

关于自动发音障碍语音评估可靠性的研究

自动化失语症评估可以开发低成本而有效的工具来解决手动和主观评估的当前局限，但目前的方法是否依赖于与失语症相关的说话模式或外部因素尚不清楚。本文研究噪音对记录的失语症的影响，设计并实现了一种新的方法来可视化和比较特征提取器和模型，使用 UA-Speech 数据集，旨在提高研究社区对建立可靠的自动失语症评估系统要求的认识。

Jun, 2023

为 ASR 数据增强精确合成口吃病患者语音

该研究提出了一种新的口吃性语音合成方法，用于自动语音识别 (ASR) 训练数据的增强，并通过主观评估证明了合成语音与真实口吃性语音在口吃感和相似性方面的相似性，特别是对于严重口吃者。

Aug, 2023

在数据稀缺环境中利用 ASR 驱动的 Wav2Vec2 探索病态语音质量评估

自动语音质量评估中，由于数据稀缺，大多数研究仅在二元分类等简单任务上取得良好结果。本文提出了一种新的方法，通过采用预训练的 Wav2Vec2 架构作为语音评估中的特征提取器，将学习系统从片段级别提升至音频级别，从而建立了一个新的基准，使得只使用 95 个训练样本可以实现对可懂度和严重程度得分的预测，平均均方误差分别为 0.73 和 1.15。结果表明，基于 ASR 的 Wav2Vec2 模型带来了最佳结果，并且可能暗示了 ASR 与语音质量评估之间的强相关性。同时，我们还评估了该方法在变长片段持续时间和语音内容等因素上的影响。

Mar, 2024

使用多说话人 TTS 合成咬字不清语音并应用于咬字不清语音识别

本文旨在通过使用多说话人端到端 TTS 合成系统为 DNN-HMM 建立训练提供合成语音，其中添加语音障碍严重性等控制参数以继续改进多语音说话人端到端 TTS 系统，实验表明：使用合成的语音，对 DNN-HMM ASR 进行训练可以将识别速率提高 12.2％，且添加严重性级别和暂停插入控制参数可以将错误率降低 6.5％。

Jan, 2022

使用 Transformer 进行少样本处理的发音障碍语音可理解性水平分类

通过使用具有有限数据的 Transformer 模型，本研究旨在准确分类失语和提供有关可理解性水平的信息，同时解决以往研究中存在的数据泄漏问题，并表明所采用的多课程模型在特定数据集上获得了 67% 的准确度。

Sep, 2023

探索自监督预训练 ASR 模型用于发音障碍和老年人的语音识别

本文探讨了将领域适应 SSL 预训练模型整合到 TDNN 和 Conformer ASR 系统中，以识别老年人和患有发音障碍的人的语音，并通过实验获得了很好的效果。

Feb, 2023