使用循环一致性对抗训练改善发音障碍患者的语音可懂度
该研究提出了一种新的口吃性语音合成方法,用于自动语音识别 (ASR) 训练数据的增强,并通过主观评估证明了合成语音与真实口吃性语音在口吃感和相似性方面的相似性,特别是对于严重口吃者。
Aug, 2023
本文提出使用基于 GAN 的数据增强方法,通过分析非标准语音(如老年人和 dysarthric 患者的语音)的光谱和时间差异可模拟增强数据,提高了 UASpeech、TORGO、Pitt 和 JCCOCC MoCA 等数据集上 TDNN 和 Conformer ASR 系统的训练精度,相对于基于速度的数据增强方法,可使 TORGO 和 DementiaBank 数据集的 WER 分别提高 9.61%和 6.4%。
May, 2022
本文中,我们研究了几种现有和一种新型的基于生成对抗网络(GAN)的语音转换方法,用于增强发音不清的语音以提高发音不清的语音识别;我们比较了现有方法的关键组件,以确定最有效的解决方案来改善发音不清的语音识别。我们发现,一些直接的信号处理方法,如固定噪声移除和基于声码器的时间拉伸,可以导致与使用最先进的 GAN 方法相当的发音不清语音识别结果;此外,我们提出的 MaskCycleGAN-VC 与时间拉伸增强的组合方案,能够改善某些发音不清的演讲者与时间拉伸基准相比,使得音素识别结果更加准确。
Jan, 2022
本文旨在通过多阶段增强方法来改进阿拉伯语言障碍患者的自动语音识别性能,具体包括使用基于信号的方法生成阿拉伯语言障碍患者的语音,并通过对英语语言障碍患者语音数据进行训练以进行多语言扩充,以及在不同的语音障碍程度下进行微调和文本纠正策略。通过这些方法,本文在阿拉伯语言障碍患者的语音数据集上实现了 18% 的词错误率和 17.2% 的字符错误率,相比只针对健康数据训练的基础模型,实现了 81.8% 的 WER 提升,并在真实的英文语言障碍患者语音数据集上实现了 124% 的 WER 提升。
Jun, 2023
本文旨在通过使用多说话人端到端 TTS 合成系统为 DNN-HMM 建立训练提供合成语音,其中添加语音障碍严重性等控制参数以继续改进多语音说话人端到端 TTS 系统,实验表明:使用合成的语音,对 DNN-HMM ASR 进行训练可以将识别速率提高 12.2%,且添加严重性级别和暂停插入控制参数可以将错误率降低 6.5%。
Jan, 2022
通过使用具有有限数据的 Transformer 模型,本研究旨在准确分类失语和提供有关可理解性水平的信息,同时解决以往研究中存在的数据泄漏问题,并表明所采用的多课程模型在特定数据集上获得了 67% 的准确度。
Sep, 2023
本研究介绍了一种基于卷积神经网络的图像识别系统,将语音文件转换为图像并用于智能家居中的语音识别、发言者识别和可懂性评估任务,并提出了基于级联结构的多网络语音识别系统,达到了 92.3% 的准确率。
Jul, 2023
本文介绍了中国香港中文大学对自动语音识别技术中有关于不正常发音语音的识别问题展开的最新研究成果,利用了新型建模技术和 Bayesian model adaptation 等方法,最终取得了乌阿里语(UASpeech)失语症语音库上最低的 25.21% 字误率(WER),并在多方面相对于 2018 年的同类系统均有较大提升
Jan, 2022
提出了一种基于 adversarial speaker adaptation 的多任务学习策略,主要任务是 fine-tune 演讲者编码器以有效捕捉身份相关的信息,并通过应用对抗性训练来规范重建语音的分布,以避免引入异常发言模式。结果表明,该方法可在保持语音自然度的同时实现增强的演讲者相似性。
Feb, 2022
本研究提出了一种新的音频转换方法,是一种 GAN-based 无监督的语音转换模型,用于改善协助医疗手术的病人的语音理解性,该方法可以将受损的语音转换为正常的语音而保留语言内容和说话人特征。
Oct, 2018