Apr, 2024

StoryTTS:一个具有丰富文本表达注释的高度表现力的文本到语音数据集

TL;DR我们介绍了 StoryTTS,一种包含丰富的声学和文本表现力的 ETTS 数据集,通过系统和全面的标注框架定义了五个维度的文本表现力,并使用大型语言模型进行批量注释,结果是包含 61 小时的连续且高度抑扬顿挫的语音,带有准确的文本转录和丰富的文本表现力注释。实验证明,当与 StoryTTS 中的文本标签集成时,TTS 模型能够生成具有改进表现力的语音。