Jul, 2023

零数据的文本语音可控重音

TL;DR本文提出了一种可扩展的方法来产生高质量的文本转语音 (TTS) 的强调效果,并在不需要录音或注释的情况下实现,通过预测强调词的持续时间的简单但有效的方法,比光谱图修改技术更好地改善自然度 7.3%,并通过 40%正确测试强调的单词在一个女性 en-US 参考语音的句子中的识别。