Aug, 2023

TextrolSpeech:一种带编解码语言文本风格控制的语音语料库

TL;DR我们提出了 TextrolSpeech,这是一个与丰富文本属性一起注释的首个大规模语音情感数据集。该数据集包含 236,220 对以自然文本描述为样式提示的样式提示和对应的语音样本。此外,我们还提出了一种名为 Salle 的高效架构,将文本可控 TTS 作为一个语言模型任务处理,利用音频编解码代码作为中间表示来替代传统的 mel 频谱图。最终,我们成功展示了该模型在可控 TTS 任务中具有可比较的性能。