为 ASR 数据增强精确合成口吃病患者语音
本文旨在通过使用多说话人端到端 TTS 合成系统为 DNN-HMM 建立训练提供合成语音,其中添加语音障碍严重性等控制参数以继续改进多语音说话人端到端 TTS 系统,实验表明:使用合成的语音,对 DNN-HMM ASR 进行训练可以将识别速率提高 12.2%,且添加严重性级别和暂停插入控制参数可以将错误率降低 6.5%。
Jan, 2022
本文旨在通过多阶段增强方法来改进阿拉伯语言障碍患者的自动语音识别性能,具体包括使用基于信号的方法生成阿拉伯语言障碍患者的语音,并通过对英语语言障碍患者语音数据进行训练以进行多语言扩充,以及在不同的语音障碍程度下进行微调和文本纠正策略。通过这些方法,本文在阿拉伯语言障碍患者的语音数据集上实现了 18% 的词错误率和 17.2% 的字符错误率,相比只针对健康数据训练的基础模型,实现了 81.8% 的 WER 提升,并在真实的英文语言障碍患者语音数据集上实现了 124% 的 WER 提升。
Jun, 2023
本文提出使用基于 GAN 的数据增强方法,通过分析非标准语音(如老年人和 dysarthric 患者的语音)的光谱和时间差异可模拟增强数据,提高了 UASpeech、TORGO、Pitt 和 JCCOCC MoCA 等数据集上 TDNN 和 Conformer ASR 系统的训练精度,相对于基于速度的数据增强方法,可使 TORGO 和 DementiaBank 数据集的 WER 分别提高 9.61%和 6.4%。
May, 2022
通过使用具有有限数据的 Transformer 模型,本研究旨在准确分类失语和提供有关可理解性水平的信息,同时解决以往研究中存在的数据泄漏问题,并表明所采用的多课程模型在特定数据集上获得了 67% 的准确度。
Sep, 2023
本研究旨在使用循环一致性生成对抗网络模型将口吃音转换为健康人的语音,使用 18,700 个口吃音和 8,610 个健康对照韩语发音训练了本项目的发生器,进而证明了该基于 GAN 的转换方法对于改善口吃音的可懂度是有用的。
Jan, 2020
本文介绍了中国香港中文大学对自动语音识别技术中有关于不正常发音语音的识别问题展开的最新研究成果,利用了新型建模技术和 Bayesian model adaptation 等方法,最终取得了乌阿里语(UASpeech)失语症语音库上最低的 25.21% 字误率(WER),并在多方面相对于 2018 年的同类系统均有较大提升
Jan, 2022
使用自监督模型结合多任务学习的新颖自动程度评估方法在不充分的数据下对 Dysarthric 发音进行评估,该方法使用 Wav2vec 2.0 XLS-R 以及手工制作的声学特征和机器学习分类器, 在 Korean dysarthric speech QoLT 数据库上相较传统基线方法提高了 1.25% 的 F1 值,并且相较于没有 ASR 头的模型提高了 10.61% 的相对百分比增长。我们还通过分析潜在表示和正则化效应来展示多任务学习如何影响重度分类表现。
Oct, 2022
本文提出并评估了微调技术,以提高自动语音识别系统对非标准语音的识别准确性,特别关注两种非标准语音:肌萎缩侧索硬化症患者的言语和带口音的言语,并训练出个性化模型,相对于标准语音,相对词错误率能提高 62%和 35%,仅五分钟的训练就能带来 71%的提升,微调部分层的结果往往比微调整个模型更好,是构建肌无力性言语最先进的自动语音识别模型的第一步。
Jul, 2019
使用预训练 Wav2Vec、Hubert 和 XLSR 模型的声学特征训练自动语音识别系统,对患有言语障碍的英语、西班牙语和意大利语使用者进行识别,结果表明相较于 Fbank 特征,使用 XLSR 特征可将识别错误率分别降低 6.8%、22.0% 和 7.0%。
Apr, 2022
利用 LibriSpeech 数据集,将合成语音与自然语音数据集相结合,使用神经网络训练的端到端自动语音识别模型达到了最新的状态,极大地推动了自动语音识别技术的进步。
Nov, 2018