可控文本朗读：基于文本描述的文本朗读系统

Nov, 2022

可控文本朗读：基于文本描述的文本朗读系统

PromptTTS: Controllable Text-to-Speech with Text Descriptions

Zhifang Guo, Yichong Leng, Yihan Wu, Sheng Zhao, Xu Tan

TL;DR本研究开发了一个名为 PromptTTS 的语音合成系统，利用文本描述来指导语音的生成，从而实现了对语音风格的精确控制。与已有的控制语音风格的技术相比，PromptTTS 更加用户友好。实验表明，PromptTTS 可以生成具有精确风格控制和高质量的语音。

Abstract

Using a text description as prompt to guide the generation of text or images (e.g., GPT-3 or DALLE-2) has drawn wide attention recently. Beyond text and image generation, in this work, we explore the possibility of utilizing text descriptions to guide speech synthesis. Thus, we develop

text-to-speech speech synthesis style control nlp machine learning

发现论文，激发创造

PromptTTS 2: 使用文本提示描述和生成声音

基于 PromptTTS 2，本研究通过利用变异网络和生成提示管道来解决基于文本提示的文本到语音 (TTS) 方法的挑战，提供声音的多样性信息并生成高质量的文本提示，从而产生与文本提示一致且具有多样性的声音。

Sep, 2023

PromptTTS++：使用自然语言描述控制基于提示的文本到语音中的说话人身份

这篇论文提出了 PromptTTS++，一个基于提示的文本到语音合成系统，通过自然语言描述实现对说话者身份的控制。为了在基于提示的 TTS 框架内控制说话者身份，引入了说话者提示的概念，描述了与说话风格大致独立的语音特征，可以有效地学习从自然语言描述到多样化说话者的声学特征的映射。研究结果表明，与没有说话者提示的方法相比，该方法可以更好地控制说话者的特征。

Sep, 2023

TextrolSpeech：一种带编解码语言文本风格控制的语音语料库

我们提出了 TextrolSpeech，这是一个与丰富文本属性一起注释的首个大规模语音情感数据集。该数据集包含 236,220 对以自然文本描述为样式提示的样式提示和对应的语音样本。此外，我们还提出了一种名为 Salle 的高效架构，将文本可控 TTS 作为一个语言模型任务处理，利用音频编解码代码作为中间表示来替代传统的 mel 频谱图。最终，我们成功展示了该模型在可控 TTS 任务中具有可比较的性能。

Aug, 2023

使用少量人工注释的自然语言提示驱动的表达性语音合成

通过利用大型语言模型的语义推理能力，我们提出了 FreeStyleTTS（FS-TTS），一个具备最小人为注释的可控表达性语音合成模型，能够从原始输入文本或用户定义的描述中检索所需风格，从而实现灵活、多功能和精确的风格控制。

Nov, 2023

LibriTTS-P：一种用于文本转语音和风格字幕的具有说话风格和发音者身份提示的语料库

我们介绍了 LibriTTS-P，这是一个基于 LibriTTS-R 的新语料库，包括对说话风格的话语级描述（即提示语）和对说话人特征的说话人级提示。我们采用混合方法构建提示注释：（1）手动注释捕捉到的说话人特征的人类感知，和（2）关于说话风格的合成注释。与现有的英语提示数据集相比，我们的语料库为 LibriTTS-R 的所有说话者提供了更多样化的提示注释。基于提示的可控 TTS 的实验结果表明，使用 LibriTTS-P 训练的 TTS 模型比使用传统数据集的模型具有更高的自然度。此外，样式字幕任务的结果表明，利用 LibriTTS-P 的模型生成的单词比使用传统数据集的模型多 2.5 倍准确。我们的语料库 LibriTTS-P 可以在此 https 网址上获得。

Jun, 2024

关于有条件音频生成中的开放提示挑战

通过使用指令调整模型改写提示文本并利用文本音频对齐作为反馈信号，通过边界排序学习从而改善音频的质量和文本音频的对齐，从客观和主观的人类评估中观察到了明显的改善。

Nov, 2023

具有可控风格的上下文感知语音识别的 PromptASR

使用提示将上下文信息以控制风格的方式整合到端到端自动语音识别系统中，从而提高识别准确性和降低词错误率。

Sep, 2023

利用自然语言提示控制语音合成中的情感

我们提出了一种通过由情感丰富的文本衍生出的嵌入来作为提示信息的系统，通过在基于 Transformer 的架构内多次集成发言者和提示信息的联合表示。我们的方法在合并情感语音和文本数据集上进行训练，并在每次训练迭代中变化提示信息，以增加模型的泛化能力。客观和主观评估结果表明，该条件合成系统能够准确地将提示中的情感转移到语音中。同时，保持了发言者身份的精确可追踪性以及整体的高话语质量和可理解性。

Jun, 2024

插入并玩：一种控制文本生成的提示调整方法

利用小型语言模型进行 Prompt 调整，使用提示嵌入对生成文本进行控制，验证其在情感分析、正式度和有害语言领域的有效性。

Apr, 2024

ControlSpeech: 实现解耦编解码器的零样本复制和零样本语言风格控制的同时处理

控制语音 (ControlSpeech) 是一个文本到语音系统，能够完全克隆说话者的声音，并且可以根据几秒钟的音频提示和简单的文本风格描述提示进行任意控制和调整。

Jun, 2024