Nov, 2020

通过音素级内容 - 风格解耦实现文本转语音合成中的细粒度风格建模、转移和预测

TL;DR该论文提出了一种新型的神经网络系统,用于情感文本转语音合成中的细粒度风格建模、转移和预测,该系统通过从音素水平的语音段的梅尔光谱图中提取风格嵌入来实现细粒度建模,并应用协作学习和对抗学习策略来实现内容和风格因素的有效区分。该系统不仅可以用于单个说话者情况下的不同内容的语音风格转移,还可以用于文本到语音合成,并在内容保留方面表现更好。