Jun, 2024

LibriTTS-P:一种用于文本转语音和风格字幕的具有说话风格和发音者身份提示的语料库

TL;DR我们介绍了 LibriTTS-P,这是一个基于 LibriTTS-R 的新语料库,包括对说话风格的话语级描述(即提示语)和对说话人特征的说话人级提示。我们采用混合方法构建提示注释:(1)手动注释捕捉到的说话人特征的人类感知,和(2)关于说话风格的合成注释。与现有的英语提示数据集相比,我们的语料库为 LibriTTS-R 的所有说话者提供了更多样化的提示注释。基于提示的可控 TTS 的实验结果表明,使用 LibriTTS-P 训练的 TTS 模型比使用传统数据集的模型具有更高的自然度。此外,样式字幕任务的结果表明,利用 LibriTTS-P 的模型生成的单词比使用传统数据集的模型多 2.5 倍准确。我们的语料库 LibriTTS-P 可以在此 https 网址上获得。