Jan, 2022

时间拉伸对改善口吃病患者的言语能力和识别度的有效性研究

TL;DR本文中,我们研究了几种现有和一种新型的基于生成对抗网络(GAN)的语音转换方法,用于增强发音不清的语音以提高发音不清的语音识别;我们比较了现有方法的关键组件,以确定最有效的解决方案来改善发音不清的语音识别。我们发现,一些直接的信号处理方法,如固定噪声移除和基于声码器的时间拉伸,可以导致与使用最先进的 GAN 方法相当的发音不清语音识别结果;此外,我们提出的 MaskCycleGAN-VC 与时间拉伸增强的组合方案,能够改善某些发音不清的演讲者与时间拉伸基准相比,使得音素识别结果更加准确。