Feb, 2021

基于非自回归式、深度VAE和残差注意力的文本转语音合成算法VARA-TTS

TL;DR本文提出了一个采用多层变分自动编码器和残差注意机制的VARA-TTS非自回归文本到语音模型,通过逐层精细化文本到声学对齐,将学习负担分摊到多个注意力层中,相比单个注意力层具有更强的稳健性,并使用一个共同训练的发音速度预测器计算话语级别的发音速度,以确定推理时的声学帧数。实验结果表明,VARA-TTS在推理速度上具有数量级的提升,并且语音质量略逊于AR模型Tacotron 2,但在语音质量方面优于相似的非自回归模型BVAE-TTS。