Feb, 2022
无监督的词级韵律标记技术用于可控语音合成
Unsupervised word-level prosody tagging for controllable speech synthesis
Yiwei Guo, Chenpeng Du, Kai Yu
TL;DR提出了一种基于决策树和 GMM 的无监督词级韵律标记方法,利用这种方法训练的 TTS 系统可以实现可控语音合成。实验结果显示,与 typical FastSpeech2 模型相比,使用词级韵律标记的 TTS 模型不仅具有更好的自然度,而且还能够操作词级韵律。