Mar, 2022

基于直觉韵律特征的统计参数语音合成中的说话人适应

TL;DR本论文提出了一种利用直观韵律特征进行说话人适应的方法,在 Tacotron2 的基础上,将直观韵律特征与文本编码器的输出和说话人向量拼接编码,实现音频的转换,在客观和主观的表现上都超过了基准方法,其中基于话语层面的直观韵律特征的方法达到了所有比较方法中最好的合成音相似度。