ACLMay, 2021

学习鲁棒的潜在特征表示用于可控语音合成

TL;DR提出了一种 RTI-VAE 方法,使用修改过的 Transformer 架构和信息减少技术来学习可控制的语音数据的潜在变量,从而降低说话者属性聚类的重叠率,相比于 LSTM-VAE 和 vanilla Transformer-VAE,降低了至少 30%和至少 7%的重叠率。