为 ASR 数据增强精确合成口吃病患者语音

Aug, 2023

为 ASR 数据增强精确合成口吃病患者语音

Accurate synthesis of Dysarthric Speech for ASR data augmentation

Mohammad Soleymanpour, Michael T. Johnson, Rahim Soleymanpour, Jeffrey Berry

TL;DR该研究提出了一种新的口吃性语音合成方法，用于自动语音识别 (ASR) 训练数据的增强，并通过主观评估证明了合成语音与真实口吃性语音在口吃感和相似性方面的相似性，特别是对于严重口吃者。

Abstract

dysarthria is a motor speech disorder often characterized by reduced speech intelligibility through slow, uncoordinated control of speech production muscles. Automatic speech recognition (ASR) systems can help dy

dysarthria speech recognition speech synthesis asr training severity levels

发现论文，激发创造

使用多说话人 TTS 合成咬字不清语音并应用于咬字不清语音识别

本文旨在通过使用多说话人端到端 TTS 合成系统为 DNN-HMM 建立训练提供合成语音，其中添加语音障碍严重性等控制参数以继续改进多语音说话人端到端 TTS 系统，实验表明：使用合成的语音，对 DNN-HMM ASR 进行训练可以将识别速率提高 12.2％，且添加严重性级别和暂停插入控制参数可以将错误率降低 6.5％。

Jan, 2022

使用对抗和基于信号增强技术的阿拉伯语运动失调言语识别

本文旨在通过多阶段增强方法来改进阿拉伯语言障碍患者的自动语音识别性能，具体包括使用基于信号的方法生成阿拉伯语言障碍患者的语音，并通过对英语语言障碍患者语音数据进行训练以进行多语言扩充，以及在不同的语音障碍程度下进行微调和文本纠正策略。通过这些方法，本文在阿拉伯语言障碍患者的语音数据集上实现了 18% 的词错误率和 17.2% 的字符错误率，相比只针对健康数据训练的基础模型，实现了 81.8% 的 WER 提升，并在真实的英文语言障碍患者语音数据集上实现了 124% 的 WER 提升。

Jun, 2023

面向发音障碍和老年人的个性化对抗性数据增强语音识别

本文提出使用基于 GAN 的数据增强方法，通过分析非标准语音（如老年人和 dysarthric 患者的语音）的光谱和时间差异可模拟增强数据，提高了 UASpeech、TORGO、Pitt 和 JCCOCC MoCA 等数据集上 TDNN 和 Conformer ASR 系统的训练精度，相对于基于速度的数据增强方法，可使 TORGO 和 DementiaBank 数据集的 WER 分别提高 9.61％和 6.4％。

May, 2022

使用 Transformer 进行少样本处理的发音障碍语音可理解性水平分类

通过使用具有有限数据的 Transformer 模型，本研究旨在准确分类失语和提供有关可理解性水平的信息，同时解决以往研究中存在的数据泄漏问题，并表明所采用的多课程模型在特定数据集上获得了 67% 的准确度。

Sep, 2023

使用循环一致性对抗训练改善发音障碍患者的语音可懂度

本研究旨在使用循环一致性生成对抗网络模型将口吃音转换为健康人的语音，使用 18,700 个口吃音和 8,610 个健康对照韩语发音训练了本项目的发生器，进而证明了该基于 GAN 的转换方法对于改善口吃音的可懂度是有用的。

Jan, 2020

香港中文大学口吃言语识别系统的最新进展

本文介绍了中国香港中文大学对自动语音识别技术中有关于不正常发音语音的识别问题展开的最新研究成果，利用了新型建模技术和 Bayesian model adaptation 等方法，最终取得了乌阿里语（UASpeech）失语症语音库上最低的 25.21% 字误率（WER），并在多方面相对于 2018 年的同类系统均有较大提升

Jan, 2022

使用自监督模型和多任务学习进行发音障碍语音的自动严重程度评估

使用自监督模型结合多任务学习的新颖自动程度评估方法在不充分的数据下对 Dysarthric 发音进行评估，该方法使用 Wav2vec 2.0 XLS-R 以及手工制作的声学特征和机器学习分类器，在 Korean dysarthric speech QoLT 数据库上相较传统基线方法提高了 1.25% 的 F1 值，并且相较于没有 ASR 头的模型提高了 10.61% 的相对百分比增长。我们还通过分析潜在表示和正则化效应来展示多任务学习如何影响重度分类表现。

Oct, 2022

针对数据有限的发音不清和口音不标准的个性化 ASR

本文提出并评估了微调技术，以提高自动语音识别系统对非标准语音的识别准确性，特别关注两种非标准语音：肌萎缩侧索硬化症患者的言语和带口音的言语，并训练出个性化模型，相对于标准语音，相对词错误率能提高 62％和 35％，仅五分钟的训练就能带来 71％的提升，微调部分层的结果往往比微调整个模型更好，是构建肌无力性言语最先进的自动语音识别模型的第一步。

Jul, 2019

跨语言自监督语音表征，提高口吃症患者的语音识别能力

使用预训练 Wav2Vec、Hubert 和 XLSR 模型的声学特征训练自动语音识别系统，对患有言语障碍的英语、西班牙语和意大利语使用者进行识别，结果表明相较于 Fbank 特征，使用 XLSR 特征可将识别错误率分别降低 6.8%、22.0% 和 7.0%。

Apr, 2022

使用合成语音增强训练神经语音识别系统

利用 LibriSpeech 数据集，将合成语音与自然语音数据集相结合，使用神经网络训练的端到端自动语音识别模型达到了最新的状态，极大地推动了自动语音识别技术的进步。

Nov, 2018