面向语音识别的即时基于特征的发音障碍和老年人说话适应

Mar, 2022

面向语音识别的即时基于特征的发音障碍和老年人说话适应

On-the-fly Feature Based Speaker Adaptation for Dysarthric and Elderly Speech Recognition

Mengzhe Geng, Xurong Xie, Rongfeng Su, Jianwei Yu, Zi Ye...

TL;DR该研究提出了两种新型的基于特征的即时演讲者适应方法，即基于演讲者水平的方差规范化谱基础嵌入 (SBEVR) 特征和基于即时学习的隐藏单元贡献 (LHUC) 转换。实验结果显示，这两种方法在适应演讲者语音时表现出色，其中基于 SBEVR 特征的适应方式的性能优于基于模型的 LHUC 适应。

Abstract

Automatic recognition of dysarthric and elderly speech highly challenging tasks to date. Speaker-level heterogeneity attributed to accent or gender commonly found in normal speech, when aggregated with age and speech impairment severity, create large diversity among speakers.

speaker adaptation dysarthric speech elderly speech asr system sbevr features

发现论文，激发创造

使用光谱时域深度特征进行言语适应，在语音识别中应用于发音困难和老年人

该研究提出了一种基于频谱分解的深度特征提取方法，用于通过个性化的演讲者自适应技术提高自动语音识别系统对肌肉发音障碍者和老年人的识别准确率。通过在四项任务中的实验表明，在应用该技术后，识别准确率有了显著的提高。

Feb, 2022

混乱语音评估和识别的光谱 - 时间深度特征

本文研究基于 SVD 分解的深度学习算法，用于自动识别语音障碍人士的语音，并且使用该算法提高了基于语音识别的自适应技术在该领域中的性能。

Jan, 2022

面向语音识别的统一说话人适应方法

本文提出了一种基于特征适应和模型适应的统一说话人自适应方法，其中采用一种说话人感知的持久性记忆模型进行特征适应，并使用一种新颖的逐步修剪方法进行模型适应。在 Librispeech 数据集上的实验结果表明，相对于基线方法，在一般说话人自适应和目标说话人自适应中使用所提出的方法可带来 2.74-6.52% 的词错误率下降，并且该方法具有良好的低资源适应性能。

Oct, 2021

探索自监督预训练 ASR 模型用于发音障碍和老年人的语音识别

本文探讨了将领域适应 SSL 预训练模型整合到 TDNN 和 Conformer ASR 系统中，以识别老年人和患有发音障碍的人的语音，并通过实验获得了很好的效果。

Feb, 2023

面向发音障碍和老年人的个性化对抗性数据增强语音识别

本文提出使用基于 GAN 的数据增强方法，通过分析非标准语音（如老年人和 dysarthric 患者的语音）的光谱和时间差异可模拟增强数据，提高了 UASpeech、TORGO、Pitt 和 JCCOCC MoCA 等数据集上 TDNN 和 Conformer ASR 系统的训练精度，相对于基于速度的数据增强方法，可使 TORGO 和 DementiaBank 数据集的 WER 分别提高 9.61％和 6.4％。

May, 2022

利用言语障碍严重程度进行口吃性言语识别

本文提出了一套新的方法，即使用多任务训练，包含严重程度预测误差、说话者 - 严重程度感知辅助特征适应以及基于与严重度有关和说话者身份有关的 LHUC 转换来进行发音障碍语音识别，结果实验表明将额外的语音障碍严重度纳入最先进的混合 DNN、E2E Conformer 和预训练的 Wav2vec 2.0 ASR 系统，可以产生显著的 WER 下降，最低 WER 达到 17.82％。

May, 2023

跨语言自监督语音表征，提高口吃症患者的语音识别能力

使用预训练 Wav2Vec、Hubert 和 XLSR 模型的声学特征训练自动语音识别系统，对患有言语障碍的英语、西班牙语和意大利语使用者进行识别，结果表明相较于 Fbank 特征，使用 XLSR 特征可将识别错误率分别降低 6.8%、22.0% 和 7.0%。

Apr, 2022

为老年人和患有言语障碍者的 Conformer 语音识别系统进行超参数调整

研究了预训练于 Librispeech 语料库上并经过领域适配后用于识别老年人和患有运动障碍的语音数据集的 Conformer ASR 系统的超参数自适应，证明其能够显著提高词错误率的表现。

Jun, 2023

香港中文大学口吃言语识别系统的最新进展

本文介绍了中国香港中文大学对自动语音识别技术中有关于不正常发音语音的识别问题展开的最新研究成果，利用了新型建模技术和 Bayesian model adaptation 等方法，最终取得了乌阿里语（UASpeech）失语症语音库上最低的 25.21% 字误率（WER），并在多方面相对于 2018 年的同类系统均有较大提升

Jan, 2022

基于 Wav2vec2 的口齿不清语音识别中的发音人自适应

本研究通过 fine-tuning wav2vec2 并使用 fMLLR 特征进行适应，对发音紊乱的语音识别进行了改进，实验结果表明在不同严重程度的口吃障碍情况下，该方法的识别效果相对稳定，WER 达到了 57.72%。

Apr, 2022