Jul, 2024

针对合成数据生成的文本转语音模型选择问题研究

TL;DR本研究解决了在自动语音识别中选择合成数据生成的文本转语音模型所面临的挑战。通过比较五种不同的TTS解码器架构,我们发现没有明确的性能关系,同时提出了一种量化TTS泛化能力的方法。研究结果表明,自回归解码在数据生成中优于非自回归解码,可能对语音识别训练产生显著影响。