Apr, 2020

神经声码器的多目标情感语音转换

TL;DR本文介绍了一种利用深度双向长短期记忆网络和神经合成器来进行语音的情感转换,同时使用包含丰富语言信息的音素后验概率作为辅助输入特征,提高了转换效果的多目标情感转换架构 Multi-target EVC (MTEVC),并将条件 WaveNet 和基于流的 WaveNet (FloWaveNet) 神经合成器作为其核心部件,训练了这些神经合成器,并将语音库中的说话者信息以及情感信息定义为附加特征。实验结果的客观度量和主观评估验证了提出的 MTEVC 架构在情感语音转换方面的有效性。