Nov, 2023

使用少量人工注释的自然语言提示驱动的表达性语音合成

TL;DR通过利用大型语言模型的语义推理能力,我们提出了 FreeStyleTTS(FS-TTS),一个具备最小人为注释的可控表达性语音合成模型,能够从原始输入文本或用户定义的描述中检索所需风格,从而实现灵活、多功能和精确的风格控制。