香港中文大学口吃言语识别系统的最新进展
该研究提出了一种新的口吃性语音合成方法,用于自动语音识别 (ASR) 训练数据的增强,并通过主观评估证明了合成语音与真实口吃性语音在口吃感和相似性方面的相似性,特别是对于严重口吃者。
Aug, 2023
使用预训练 Wav2Vec、Hubert 和 XLSR 模型的声学特征训练自动语音识别系统,对患有言语障碍的英语、西班牙语和意大利语使用者进行识别,结果表明相较于 Fbank 特征,使用 XLSR 特征可将识别错误率分别降低 6.8%、22.0% 和 7.0%。
Apr, 2022
本文旨在通过多阶段增强方法来改进阿拉伯语言障碍患者的自动语音识别性能,具体包括使用基于信号的方法生成阿拉伯语言障碍患者的语音,并通过对英语语言障碍患者语音数据进行训练以进行多语言扩充,以及在不同的语音障碍程度下进行微调和文本纠正策略。通过这些方法,本文在阿拉伯语言障碍患者的语音数据集上实现了 18% 的词错误率和 17.2% 的字符错误率,相比只针对健康数据训练的基础模型,实现了 81.8% 的 WER 提升,并在真实的英文语言障碍患者语音数据集上实现了 124% 的 WER 提升。
Jun, 2023
该研究提出了一种基于频谱分解的深度特征提取方法,用于通过个性化的演讲者自适应技术提高自动语音识别系统对肌肉发音障碍者和老年人的识别准确率。通过在四项任务中的实验表明,在应用该技术后,识别准确率有了显著的提高。
Feb, 2022
本文提出使用基于 GAN 的数据增强方法,通过分析非标准语音(如老年人和 dysarthric 患者的语音)的光谱和时间差异可模拟增强数据,提高了 UASpeech、TORGO、Pitt 和 JCCOCC MoCA 等数据集上 TDNN 和 Conformer ASR 系统的训练精度,相对于基于速度的数据增强方法,可使 TORGO 和 DementiaBank 数据集的 WER 分别提高 9.61%和 6.4%。
May, 2022
本文探讨了将领域适应 SSL 预训练模型整合到 TDNN 和 Conformer ASR 系统中,以识别老年人和患有发音障碍的人的语音,并通过实验获得了很好的效果。
Feb, 2023
Dysarthric speech reconstruction systems have improved through NED-based approaches, but a Unit-DSR system utilizing speech units achieves better content restoration and training efficiency, outperforming baselines with robustness against speed perturbation and noise.
Jan, 2024
本文旨在通过使用多说话人端到端 TTS 合成系统为 DNN-HMM 建立训练提供合成语音,其中添加语音障碍严重性等控制参数以继续改进多语音说话人端到端 TTS 系统,实验表明:使用合成的语音,对 DNN-HMM ASR 进行训练可以将识别速率提高 12.2%,且添加严重性级别和暂停插入控制参数可以将错误率降低 6.5%。
Jan, 2022
本文提出并评估了微调技术,以提高自动语音识别系统对非标准语音的识别准确性,特别关注两种非标准语音:肌萎缩侧索硬化症患者的言语和带口音的言语,并训练出个性化模型,相对于标准语音,相对词错误率能提高 62%和 35%,仅五分钟的训练就能带来 71%的提升,微调部分层的结果往往比微调整个模型更好,是构建肌无力性言语最先进的自动语音识别模型的第一步。
Jul, 2019
本文研究了一组用于混乱语音识别的数据增强技术,包括声道长度扰动(VTLP)、节奏扰动和速度扰动,并利用正常和混乱语音进行增强处理。通过基于学习隐藏单元贡献(LHUC)的说话者自适应训练对原始和增强数据中的受损说话者之间的变异性进行建模。使用基于速度扰动的最佳增强方法构建的最终说话者自适应系统相对于没有数据增强的基线系统减少了 2.92%绝对(9.3%相对)的词错误率(WER),并在包含 16 位 Dysarthria 患者的测试集上获得了 26.37%的整体 WER。
Jan, 2022