通过合成注释实现高保真度文本转语音的自然语言指导

Feb, 2024

通过合成注释实现高保真度文本转语音的自然语言指导

Natural language guidance of high-fidelity text-to-speech with synthetic annotations

Dan Lyth, Simon King

TL;DR通过对大规模数据集进行训练的文本到语音模型展示了令人印象深刻的语境学习能力和自然度。然而，这些模型中的说话人身份和风格的控制通常需要以参考语音录音为基础，从而限制了其创造性应用。相反，关于说话人身份和风格的自然语言提示已经展示了有希望的结果，并提供了一种直观的控制方法。然而，依赖于人工标注的描述限制了其扩展到大规模数据集的能力。我们的工作弥合了这两种方法之间的差距。我们提出了一种可扩展的方法来对说话人身份、风格和录音条件的各个方面进行标注。然后，我们将这种方法应用到一个 45k 小时的数据集上，用于训练语音语言模型。此外，我们提出了简单的方法来增加音频保真度，尽管完全依赖于现有数据，但性能显著超越了最近的工作。我们的结果展示了通过单一模型和直观的自然语言条件，实现了高保真度的语音生成，在各种口音、韵律风格、信道条件和声学条件下均表现出色。可以在此网址听到音频样本。

Abstract

text-to-speech models trained on large-scale datasets have demonstrated impressive in-context learning capabilities and naturalness. However, control of speaker identity and style in these models typically requir

text-to-speech models speaker identity style control speech generation audio fidelity

发现论文，激发创造

PromptTTS++：使用自然语言描述控制基于提示的文本到语音中的说话人身份

这篇论文提出了 PromptTTS++，一个基于提示的文本到语音合成系统，通过自然语言描述实现对说话者身份的控制。为了在基于提示的 TTS 框架内控制说话者身份，引入了说话者提示的概念，描述了与说话风格大致独立的语音特征，可以有效地学习从自然语言描述到多样化说话者的声学特征的映射。研究结果表明，与没有说话者提示的方法相比，该方法可以更好地控制说话者的特征。

Sep, 2023

使用少量人工注释的自然语言提示驱动的表达性语音合成

通过利用大型语言模型的语义推理能力，我们提出了 FreeStyleTTS（FS-TTS），一个具备最小人为注释的可控表达性语音合成模型，能够从原始输入文本或用户定义的描述中检索所需风格，从而实现灵活、多功能和精确的风格控制。

Nov, 2023

通过发现主轴控制生成人工说话者嵌入

本文提出了一种方法，可以生成人工说话者嵌入，从而提供对声音和说话风格的直观和精细控制，而不需要标签并且不会牺牲隐私。

Oct, 2023

使用大型语言模型控制说话风格以实现表情丰富的 TTS

本研究旨在使用生成型语言模型与 TTS 模型，提供合适的发音特征，以更好地表达不同的说话风格和对话语境，从而提升语音合成的表现。

May, 2023

半监督生成建模用于可控语音合成

本文提出一种新颖的生成模型，它将最先进的神经文本到语音技术和半监督概率潜变量模型相结合。通过对某些潜变量进行部分监督，我们能够强制它们具有一致和可解释的特征，这在纯无监督的文本到语音模型中过去是不可能的。我们证明了我们的模型能够可靠地发现和控制语音的重要属性（例如情感和语速），即使只监督 1％（30 分钟）。在这样低的监督水平下，我们观察不到合成质量与最先进的基线水平相比的下降。

Oct, 2019

多条件扩散模型的音频生成

我们提出了一种新的模型，通过包含额外条件（时间戳、语调曲线和能量曲线）作为文本的补充，增强了现有预训练文本转音频模型的可控性，实现了对生成音频的时间顺序、音高和能量的精细控制。通过使用可训练的控制条件编码器和可训练的融合网络，在保持预训练文本转音频模型权重不变的同时，将额外条件编码和融合。由于缺乏合适的数据集和评估指标，我们将现有数据集整合成一个包含音频和相应条件的新数据集，并使用一系列评估指标来评估可控性能。实验结果表明，我们的模型成功实现了细粒度控制，实现了可控的音频生成。音频样本和我们的数据集可在此 https URL 获取。

Aug, 2023

数据增强用于文本转语音的跨说话人风格转移

使用语音转换进行数据增强，构建单说话人多风格的 TTS 系统，实现控制不同说话人的风格和保留目标说话人身份的表达性语音转换。

Feb, 2022

自监督上下文感知风格表示在表现性语音合成中的应用

本文提出了一种利用自我监督学习从大量纯文本中学习风格表达的新框架，采用情感词典和对比学习和深度聚类，最终在多风格变换文本到语音系统中得到了更好的结果。

Jun, 2022

TextrolSpeech：一种带编解码语言文本风格控制的语音语料库

我们提出了 TextrolSpeech，这是一个与丰富文本属性一起注释的首个大规模语音情感数据集。该数据集包含 236,220 对以自然文本描述为样式提示的样式提示和对应的语音样本。此外，我们还提出了一种名为 Salle 的高效架构，将文本可控 TTS 作为一个语言模型任务处理，利用音频编解码代码作为中间表示来替代传统的 mel 频谱图。最终，我们成功展示了该模型在可控 TTS 任务中具有可比较的性能。

Aug, 2023

促进的歌唱声音合成：通过自然语言提示实现可控

提供了一种新的歌声合成方法 Prompt-Singer，使得合成歌声能够通过自然语言明确地控制歌手的性别、音域和音量，并使用基于解码器的 transformer 模型和多尺度层次结构设计了分离音域旋律的音高表示方法以保持旋律准确性，同时，对不同类型的文本表示、文本编码器微调和引入语音数据以减轻数据稀缺问题等不同实验设置进行了探索，旨在促进进一步的研究，实验证明该模型具有良好的控制能力和音频质量。

Mar, 2024