Jun, 2023

通过建模残差多模态实现鲁棒的 FastSpeech 2

TL;DR本篇论文通过引入 TVC-GMM,一种 Trivariate-Chain 高斯分布的混合模型,将过度平滑的 mel-spectrogram 有条件解码器进行建模,从而改善表达数据集中的音频质量。