Feb, 2020

利用量化的细粒度 VAE 和自回归韵律先验生成多样且自然的文本语音样本

TL;DR本文提出了一种离散潜在空间的顺序先验方法,可以更自然地生成高度连续的语音,通过使用向量量化(VQ)对潜在特征进行离散化,并分别在结果上训练自回归(AR)先验模型,在听觉测试和自动语音识别(ASR)性能的客观指标方面,实验结果表明所提出的模型显著提高了随机样本生成的自然度,而且随机从所提出的模型中采样可以用作提高 ASR 性能的数据增强。