面向语音识别的即时基于特征的发音障碍和老年人说话适应
该研究提出了一种基于频谱分解的深度特征提取方法,用于通过个性化的演讲者自适应技术提高自动语音识别系统对肌肉发音障碍者和老年人的识别准确率。通过在四项任务中的实验表明,在应用该技术后,识别准确率有了显著的提高。
Feb, 2022
本文提出了一种基于特征适应和模型适应的统一说话人自适应方法,其中采用一种说话人感知的持久性记忆模型进行特征适应,并使用一种新颖的逐步修剪方法进行模型适应。在 Librispeech 数据集上的实验结果表明,相对于基线方法,在一般说话人自适应和目标说话人自适应中使用所提出的方法可带来 2.74-6.52% 的词错误率下降,并且该方法具有良好的低资源适应性能。
Oct, 2021
本文探讨了将领域适应 SSL 预训练模型整合到 TDNN 和 Conformer ASR 系统中,以识别老年人和患有发音障碍的人的语音,并通过实验获得了很好的效果。
Feb, 2023
本文提出使用基于 GAN 的数据增强方法,通过分析非标准语音(如老年人和 dysarthric 患者的语音)的光谱和时间差异可模拟增强数据,提高了 UASpeech、TORGO、Pitt 和 JCCOCC MoCA 等数据集上 TDNN 和 Conformer ASR 系统的训练精度,相对于基于速度的数据增强方法,可使 TORGO 和 DementiaBank 数据集的 WER 分别提高 9.61%和 6.4%。
May, 2022
本文提出了一套新的方法,即使用多任务训练,包含严重程度预测误差、说话者 - 严重程度感知辅助特征适应以及基于与严重度有关和说话者身份有关的 LHUC 转换来进行发音障碍语音识别,结果实验表明将额外的语音障碍严重度纳入最先进的混合 DNN、E2E Conformer 和预训练的 Wav2vec 2.0 ASR 系统,可以产生显著的 WER 下降,最低 WER 达到 17.82%。
May, 2023
使用预训练 Wav2Vec、Hubert 和 XLSR 模型的声学特征训练自动语音识别系统,对患有言语障碍的英语、西班牙语和意大利语使用者进行识别,结果表明相较于 Fbank 特征,使用 XLSR 特征可将识别错误率分别降低 6.8%、22.0% 和 7.0%。
Apr, 2022
研究了预训练于 Librispeech 语料库上并经过领域适配后用于识别老年人和患有运动障碍的语音数据集的 Conformer ASR 系统的超参数自适应,证明其能够显著提高词错误率的表现。
Jun, 2023
本文介绍了中国香港中文大学对自动语音识别技术中有关于不正常发音语音的识别问题展开的最新研究成果,利用了新型建模技术和 Bayesian model adaptation 等方法,最终取得了乌阿里语(UASpeech)失语症语音库上最低的 25.21% 字误率(WER),并在多方面相对于 2018 年的同类系统均有较大提升
Jan, 2022
本研究通过 fine-tuning wav2vec2 并使用 fMLLR 特征进行适应,对发音紊乱的语音识别进行了改进,实验结果表明在不同严重程度的口吃障碍情况下,该方法的识别效果相对稳定,WER 达到了 57.72%。
Apr, 2022