Aug, 2019

对抗训练的端到端朝鲜语歌声合成系统

TL;DR本文提出了一种从歌词和符号旋律生成端到端的韩国歌唱声音合成系统,包括三种新颖方法:1)语音增强掩蔽,2)文本和音高的本地条件对超分辨率网络,3)条件对抗训练。该系统包括两个主要模块:从给定的输入信息生成 mel-spectrogram 的 mel-synthesis 网络和将生成的 mel-spectrogram 上采样成 linear-spectrogram 的超分辨率网络。在 mel-synthesis 网络中,应用语音增强掩蔽仅从输入文本生成隐式谐振峰掩蔽,这使得歌唱声音的语音控制更加准确。此外,本文还表明了本地文本和音高和条件对抗训练是超分辨率过程中生成真实人类歌声的关键。最后,通过定量和定性评估,证实了所有提出方法的有效性。