Jul, 2024

基于无监督文本到语音合成的数据增强的口音语音识别的改进

TL;DR本文研究了无监督文本到语音合成作为数据增强方法,以改进口音语音识别的应用。使用少量带有口音的训练数据和其伪标签进行无监督训练的语音合成系统,可以将带有口音的语音数据应用于口音语音识别的数据增强。通过使用该语音合成系统从文本提示生成合成的带有口音的语音数据,并与现有的无口音语音数据结合,用于训练自动语音识别系统。在使用大量无监督带有口音语音数据预训练的Wav2vec2.0模型的自监督学习框架中,进行自动语音识别实验。用于训练无监督语音合成系统的带有口音的语音数据来自L2-ARCTIC和Britsh Isles语料库,而用于评估的语料库则是爱丁堡国际英语口音的自发性对话语音。实验结果表明,将由无监督语音合成生成的合成带有口音的语音数据用于微调下游的Wav2vec2.0模型,相较于使用Librispeech语料库中的无口音语音数据进行微调的Wav2vec2.0基线模型,可以减小6.1%相对字错误率。