跨语言自监督语音表征，提高口吃症患者的语音识别能力

Apr, 2022

跨语言自监督语音表征，提高口吃症患者的语音识别能力

Cross-lingual Self-Supervised Speech Representations for Improved Dysarthric Speech Recognition

Abner Hernandez, Paula Andrea Pérez-Toro, Elmar Nöth, Juan Rafael Orozco-Arroyave, Andreas Maier...

TL;DR使用预训练Wav2Vec、Hubert和XLSR模型的声学特征训练自动语音识别系统，对患有言语障碍的英语、西班牙语和意大利语使用者进行识别，结果表明相较于Fbank特征，使用XLSR特征可将识别错误率分别降低6.8%、22.0%和7.0%。

Abstract

State-of-the-art automatic speech recognition (ASR) systems perform well on healthy speech. However, the performance on impaired speech still remains an issue. The current study explores the usefulness of using wav2vec<

发现论文，激发创造

针对数据有限的发音不清和口音不标准的个性化ASR

本文提出并评估了微调技术，以提高自动语音识别系统对非标准语音的识别准确性，特别关注两种非标准语音：肌萎缩侧索硬化症患者的言语和带口音的言语，并训练出个性化模型，相对于标准语音，相对词错误率能提高62％和35％，仅五分钟的训练就能带来71％的提升，微调部分层的结果往往比微调整个模型更好，是构建肌无力性言语最先进的自动语音识别模型的第一步。

Jul, 2019

使用多说话人TTS合成咬字不清语音并应用于咬字不清语音识别

本文旨在通过使用多说话人端到端TTS合成系统为DNN-HMM建立训练提供合成语音，其中添加语音障碍严重性等控制参数以继续改进多语音说话人端到端TTS系统，实验表明：使用合成的语音，对DNN-HMM ASR进行训练可以将识别速率提高12.2％，且添加严重性级别和暂停插入控制参数可以将错误率降低6.5％。

Jan, 2022

基于Wav2vec2的口齿不清语音识别中的发音人自适应

本研究通过 fine-tuning wav2vec2 并使用 fMLLR 特征进行适应，对发音紊乱的语音识别进行了改进，实验结果表明在不同严重程度的口吃障碍情况下，该方法的识别效果相对稳定，WER 达到了 57.72%。

Apr, 2022

英语、韩语和泰米尔语的跨语言发音障碍严重程度分类

提出了一种跨语言分类方法，使用语言独立特征和语言唯一特征进行重音障碍严重性分类，并使用XGBoost算法进行分类。

Sep, 2022

使用自监督模型和多任务学习进行发音障碍语音的自动严重程度评估

使用自监督模型结合多任务学习的新颖自动程度评估方法在不充分的数据下对Dysarthric发音进行评估，该方法使用Wav2vec 2.0 XLS-R以及手工制作的声学特征和机器学习分类器，在Korean dysarthric speech QoLT数据库上相较传统基线方法提高了1.25%的F1值，并且相较于没有ASR头的模型提高了10.61%的相对百分比增长。我们还通过分析潜在表示和正则化效应来展示多任务学习如何影响重度分类表现。

Oct, 2022

探索自监督预训练ASR模型用于发音障碍和老年人的语音识别

本文探讨了将领域适应SSL预训练模型整合到TDNN和Conformer ASR系统中，以识别老年人和患有发音障碍的人的语音，并通过实验获得了很好的效果。

Feb, 2023

利用言语障碍严重程度进行口吃性言语识别

本文提出了一套新的方法，即使用多任务训练，包含严重程度预测误差、说话者-严重程度感知辅助特征适应以及基于与严重度有关和说话者身份有关的LHUC转换来进行发音障碍语音识别，结果实验表明将额外的语音障碍严重度纳入最先进的混合DNN、E2E Conformer和预训练的Wav2vec 2.0 ASR系统，可以产生显著的WER下降，最低WER达到17.82％。

May, 2023

为ASR数据增强精确合成口吃病患者语音

该研究提出了一种新的口吃性语音合成方法，用于自动语音识别(ASR)训练数据的增强，并通过主观评估证明了合成语音与真实口吃性语音在口吃感和相似性方面的相似性，特别是对于严重口吃者。

Aug, 2023

音韵学反演：对语言不流利的言语进行声学到言语器官的转换: 在预训练的自监督表征中是否有优势？

使用预先训练的自监督学习模型，对发音不清的言语进行声学到发音学的逆向映射，通过条件化x-vectors来训练BLSTM网络，使用不同的预先训练特征进行低资源条件下的挑战性声学到发音学逆向映射任务，在实验中观察到DeCoAR在细调方案中相对于MFCC的皮尔森相关系数分别在健康控制组和患者组上提高了约1.81%和约4.56%，同时发现具有特征重构或未来时间步预测任务的SSL网络（如wav2vec、APC和DeCoAR）预测发音不清的发声轨迹的性能表现良好。

Sep, 2023

使用Transformer进行少样本处理的发音障碍语音可理解性水平分类

通过使用具有有限数据的Transformer模型，本研究旨在准确分类失语和提供有关可理解性水平的信息，同时解决以往研究中存在的数据泄漏问题，并表明所采用的多课程模型在特定数据集上获得了67%的准确度。

Sep, 2023