TextrolSpeech：一种带编解码语言文本风格控制的语音语料库

Aug, 2023

TextrolSpeech：一种带编解码语言文本风格控制的语音语料库

TextrolSpeech: A Text Style Control Speech Corpus With Codec Language Text-to-Speech Models

Shengpeng Ji, Jialong Zuo, Minghui Fang, Ziyue Jiang, Feiyang Chen...

TL;DR我们提出了 TextrolSpeech，这是一个与丰富文本属性一起注释的首个大规模语音情感数据集。该数据集包含 236,220 对以自然文本描述为样式提示的样式提示和对应的语音样本。此外，我们还提出了一种名为 Salle 的高效架构，将文本可控 TTS 作为一个语言模型任务处理，利用音频编解码代码作为中间表示来替代传统的 mel 频谱图。最终，我们成功展示了该模型在可控 TTS 任务中具有可比较的性能。

Abstract

Recently, there has been a growing interest in the field of controllable Text-to-Speech (TTS). While previous studies have relied on users providing specific style factor values based on acoustic knowledge or selecting reference speeches that meet certain requirements, generating speech solely from natural text prompts has emerged as a new challenge for rese

controllable text-to-speech speech emotion dataset style prompt text-controllable tts models salle architecture

发现论文，激发创造

可控文本朗读：基于文本描述的文本朗读系统

本研究开发了一个名为 PromptTTS 的语音合成系统，利用文本描述来指导语音的生成，从而实现了对语音风格的精确控制。与已有的控制语音风格的技术相比，PromptTTS 更加用户友好。实验表明，PromptTTS 可以生成具有精确风格控制和高质量的语音。

Nov, 2022

ControlSpeech: 实现解耦编解码器的零样本复制和零样本语言风格控制的同时处理

控制语音 (ControlSpeech) 是一个文本到语音系统，能够完全克隆说话者的声音，并且可以根据几秒钟的音频提示和简单的文本风格描述提示进行任意控制和调整。

Jun, 2024

LibriTTS-P：一种用于文本转语音和风格字幕的具有说话风格和发音者身份提示的语料库

我们介绍了 LibriTTS-P，这是一个基于 LibriTTS-R 的新语料库，包括对说话风格的话语级描述（即提示语）和对说话人特征的说话人级提示。我们采用混合方法构建提示注释：（1）手动注释捕捉到的说话人特征的人类感知，和（2）关于说话风格的合成注释。与现有的英语提示数据集相比，我们的语料库为 LibriTTS-R 的所有说话者提供了更多样化的提示注释。基于提示的可控 TTS 的实验结果表明，使用 LibriTTS-P 训练的 TTS 模型比使用传统数据集的模型具有更高的自然度。此外，样式字幕任务的结果表明，利用 LibriTTS-P 的模型生成的单词比使用传统数据集的模型多 2.5 倍准确。我们的语料库 LibriTTS-P 可以在此 https 网址上获得。

Jun, 2024

神经 TTS 中的文本驱动情感风格控制与跨说话人风格转移

该论文提出了一种基于文本的情感风格控制接口和跨说话人风格转移方法，利用双模态风格编码器以及新的风格损失函数，实现高质量的表达性语音合成。

Jul, 2022

使用少量人工注释的自然语言提示驱动的表达性语音合成

通过利用大型语言模型的语义推理能力，我们提出了 FreeStyleTTS（FS-TTS），一个具备最小人为注释的可控表达性语音合成模型，能够从原始输入文本或用户定义的描述中检索所需风格，从而实现灵活、多功能和精确的风格控制。

Nov, 2023

通过合成注释实现高保真度文本转语音的自然语言指导

通过对大规模数据集进行训练的文本到语音模型展示了令人印象深刻的语境学习能力和自然度。然而，这些模型中的说话人身份和风格的控制通常需要以参考语音录音为基础，从而限制了其创造性应用。相反，关于说话人身份和风格的自然语言提示已经展示了有希望的结果，并提供了一种直观的控制方法。然而，依赖于人工标注的描述限制了其扩展到大规模数据集的能力。我们的工作弥合了这两种方法之间的差距。我们提出了一种可扩展的方法来对说话人身份、风格和录音条件的各个方面进行标注。然后，我们将这种方法应用到一个 45k 小时的数据集上，用于训练语音语言模型。此外，我们提出了简单的方法来增加音频保真度，尽管完全依赖于现有数据，但性能显著超越了最近的工作。我们的结果展示了通过单一模型和直观的自然语言条件，实现了高保真度的语音生成，在各种口音、韵律风格、信道条件和声学条件下均表现出色。可以在此网址听到音频样本。

Feb, 2024

低资源场景下用于栋笃笑表演的语音合成技术

本研究构建了一个新的数据集，开发了 ComedicSpeech—— 适用于低资源场景下的单口喜剧合成的 TTS 系统，其灵活提取了韵律、个人节奏和填充词等个性特征，并展示了仅使用每位喜剧演员十分钟训练数据的情况下，比基线模型获得更好的表现。

May, 2023

StyleTTS：一种基于样式的生成模型，用于自然且多样化的文本转语音合成

提出了 StyleTTS，一种基于风格的生成模型，用于生成具有自然韵律的多样化语音，通过自监督学习表示发声风格，无需明确标记。在内部评估中，该模型在单人和多人语音数据集中均优于最先进的模型。

May, 2022

StoryTTS：一个具有丰富文本表达注释的高度表现力的文本到语音数据集

我们介绍了 StoryTTS，一种包含丰富的声学和文本表现力的 ETTS 数据集，通过系统和全面的标注框架定义了五个维度的文本表现力，并使用大型语言模型进行批量注释，结果是包含 61 小时的连续且高度抑扬顿挫的语音，带有准确的文本转录和丰富的文本表现力注释。实验证明，当与 StoryTTS 中的文本标签集成时，TTS 模型能够生成具有改进表现力的语音。

Apr, 2024

PromptTTS++：使用自然语言描述控制基于提示的文本到语音中的说话人身份

这篇论文提出了 PromptTTS++，一个基于提示的文本到语音合成系统，通过自然语言描述实现对说话者身份的控制。为了在基于提示的 TTS 框架内控制说话者身份，引入了说话者提示的概念，描述了与说话风格大致独立的语音特征，可以有效地学习从自然语言描述到多样化说话者的声学特征的映射。研究结果表明，与没有说话者提示的方法相比，该方法可以更好地控制说话者的特征。

Sep, 2023