Dec, 2019

为注意力语音识别系统生成合成音频数据

TL;DR本文介绍了一种利用自然语言生成的人工语音并结合于现有的自动语音识别系统中的方法,并证明仅需使用语音文本数据就可对 ASR 系统进行增强,相对于数据扩充的基线模型,本方法在 LibriSpeech-100h 上获得了高达 33% 的错误率降低并且相对于最新 ASR 基线模型在 LibriSpeech-960h 上也获得了高达 5% 的未识别词率降低。