可控文本朗读:基于文本描述的文本朗读系统
基于 PromptTTS 2,本研究通过利用变异网络和生成提示管道来解决基于文本提示的文本到语音 (TTS) 方法的挑战,提供声音的多样性信息并生成高质量的文本提示,从而产生与文本提示一致且具有多样性的声音。
Sep, 2023
这篇论文提出了 PromptTTS++,一个基于提示的文本到语音合成系统,通过自然语言描述实现对说话者身份的控制。为了在基于提示的 TTS 框架内控制说话者身份,引入了说话者提示的概念,描述了与说话风格大致独立的语音特征,可以有效地学习从自然语言描述到多样化说话者的声学特征的映射。研究结果表明,与没有说话者提示的方法相比,该方法可以更好地控制说话者的特征。
Sep, 2023
我们提出了 TextrolSpeech,这是一个与丰富文本属性一起注释的首个大规模语音情感数据集。该数据集包含 236,220 对以自然文本描述为样式提示的样式提示和对应的语音样本。此外,我们还提出了一种名为 Salle 的高效架构,将文本可控 TTS 作为一个语言模型任务处理,利用音频编解码代码作为中间表示来替代传统的 mel 频谱图。最终,我们成功展示了该模型在可控 TTS 任务中具有可比较的性能。
Aug, 2023
通过利用大型语言模型的语义推理能力,我们提出了 FreeStyleTTS(FS-TTS),一个具备最小人为注释的可控表达性语音合成模型,能够从原始输入文本或用户定义的描述中检索所需风格,从而实现灵活、多功能和精确的风格控制。
Nov, 2023
我们介绍了 LibriTTS-P,这是一个基于 LibriTTS-R 的新语料库,包括对说话风格的话语级描述(即提示语)和对说话人特征的说话人级提示。我们采用混合方法构建提示注释:(1)手动注释捕捉到的说话人特征的人类感知,和(2)关于说话风格的合成注释。与现有的英语提示数据集相比,我们的语料库为 LibriTTS-R 的所有说话者提供了更多样化的提示注释。基于提示的可控 TTS 的实验结果表明,使用 LibriTTS-P 训练的 TTS 模型比使用传统数据集的模型具有更高的自然度。此外,样式字幕任务的结果表明,利用 LibriTTS-P 的模型生成的单词比使用传统数据集的模型多 2.5 倍准确。我们的语料库 LibriTTS-P 可以在此 https 网址上获得。
Jun, 2024
通过使用指令调整模型改写提示文本并利用文本音频对齐作为反馈信号,通过边界排序学习从而改善音频的质量和文本音频的对齐,从客观和主观的人类评估中观察到了明显的改善。
Nov, 2023
我们提出了一种通过由情感丰富的文本衍生出的嵌入来作为提示信息的系统,通过在基于 Transformer 的架构内多次集成发言者和提示信息的联合表示。我们的方法在合并情感语音和文本数据集上进行训练,并在每次训练迭代中变化提示信息,以增加模型的泛化能力。客观和主观评估结果表明,该条件合成系统能够准确地将提示中的情感转移到语音中。同时,保持了发言者身份的精确可追踪性以及整体的高话语质量和可理解性。
Jun, 2024
控制语音 (ControlSpeech) 是一个文本到语音系统,能够完全克隆说话者的声音,并且可以根据几秒钟的音频提示和简单的文本风格描述提示进行任意控制和调整。
Jun, 2024