May, 2022

面向发音障碍和老年人的个性化对抗性数据增强语音识别

TL;DR本文提出使用基于 GAN 的数据增强方法,通过分析非标准语音(如老年人和 dysarthric 患者的语音)的光谱和时间差异可模拟增强数据,提高了 UASpeech、TORGO、Pitt 和 JCCOCC MoCA 等数据集上 TDNN 和 Conformer ASR 系统的训练精度,相对于基于速度的数据增强方法,可使 TORGO 和 DementiaBank 数据集的 WER 分别提高 9.61%和 6.4%。