Jun, 2024

利用多层次 VAE 和对抗训练进行的文本转语音口音转化

TL;DR提出了一种利用多级变分自编码器与对抗学习的文本转语音模型,用于解决语音合成和转换中的口音问题,以期构建更具包容性的系统。通过客观评价指标和主观听觉测试对性能进行评估,结果表明与基线相比,口音转换能力有所提高。