ICMLNov, 2021

Guided-TTS: 基于分类器指导的文本语音合成扩散模型

TL;DR本文介绍了一种名为 Guided-TTS 的高质量文本到语音 (TTS) 模型,使用分类器指导,不需要目标说话者的任何转录。具体来说,无条件扩散模型通过大规模语音识别数据集上训练的音素分类器指导生成 Diffusion 网络参数,实现了单批次推理下的 TTS 合成。实验结果表明,与最先进的 TTS 模型 Grad-TTS 相比,在 LJSpeech 数据集上,可以在没有转录的情况下达到性能可比的水平。同时,该模型能较好地适应多样化的数据集。