揭示表现力语音合成的潜在风格因素

NIPSNov, 2017

揭示表现力语音合成的潜在风格因素

Uncovering Latent Style Factors for Expressive Speech Synthesis

Yuxuan Wang, RJ Skerry-Ryan, Ying Xiao, Daisy Stanton, Joel Shor...

TL;DR本研究通过引入风格编码器，提出了一种基于数据驱动学习的语音合成模型，无需额外标注即可单独学习语音中的韵律风格，能够在一定程度上预测并控制合成语音的韵律风格。

Abstract

prosodic modeling is a core problem in speech synthesis. The key challenge is producing desirable prosody from textual input containing only phonetic information. In this preliminary study, we introduce the conce

prosodic modeling speech synthesis style tokens neural network data-driven learning

发现论文，激发创造

利用直觉的韵律特征进行可控的神经文本转语音合成

通过使用一种基于序列对序列神经网络的方法，对音频语音特征进行条件训练，以学习一个直观且有意义的潜在韵律空间，进一步控制音调、音高、语音能量等特征参数，生成多种音色，并维持与 Tacotron 基线模型相似的评分（4.26/4.23）。

Sep, 2020

通过预测基于标记的声学潜变量学习话语级表示以用于情感语音合成

本论文提出了一种表达性语音合成模型，该模型利用标记级别的潜在韵律变量来捕捉和控制话语级别属性，如角色配音和说话风格，其中的潜在细节级别空间同时也捕捉更粗粒度的信息。

Nov, 2022

基于语音帧和语音风格重构损失的富表现力 TTS 训练

该研究提出了一种基于 Tacotron 的文本到语音系统的新训练策略，通过使用感知损失函数实现了在样式重建损失下的语音风格的习得，最终在自然度和表现力上都实现了非凡的性能，该模型是首次将感知质量作为损失函数并纳入 Tacotron 训练，从而实现更好的表现力。

Aug, 2020

基于风格描述的条件韵律层归一化扩散生成对抗网络的文本转语音

使用基于扩散生成对抗网络的方法（Prosodic Diff-TTS），通过将风格描述和内容文本作为输入生成仅经过 4 个去噪步骤的高保真语音样本。它利用了新颖的条件韵律层归一化，将风格嵌入结合到基于多头注意力的音素编码器和基于梅尔频谱图解码器的生成器体系结构中来生成语音。风格嵌入是通过在辅助任务上微调预训练的 BERT 模型，如音高、说话速度、情感和性别分类等生成的。我们使用多种量化指标对我们提出的架构在多说话人 LibriTTS 和 PromptSpeech 数据集上的有效性进行了验证，以衡量生成的准确性和 MOS 值。

Oct, 2023

StyleTTS：一种基于样式的生成模型，用于自然且多样化的文本转语音合成

提出了 StyleTTS，一种基于风格的生成模型，用于生成具有自然韵律的多样化语音，通过自监督学习表示发声风格，无需明确标记。在内部评估中，该模型在单人和多人语音数据集中均优于最先进的模型。

May, 2022

使用半监督风格提取器和分层建模提高跨说话人风格转移的韵律表现在语音合成中

提出了一种强度可控半监督风格提取器，用于解开语音中的风格、内容和音色，同时设计了分层韵律预测器以提高其音韵建模，并提出跨发话人循环一致性损失作为训练阶段辅助模型学习未见过的风格 - 音色组合，并展示它的效果优于基线方法。

Mar, 2023

基于 Tacotron 的端到端韵律转移实现情感化语音合成

本文提出了一个通过学习潜在的韵律嵌入空间，从包含所需韵律的参考声学信号中扩展 Tacotron 语音合成架构的方法，利用学习到的韵律嵌入空间来进行条件控制，达到了即使参考信号和合成说话人不同也能匹配参考语音韵律细节的合成语音效果，并定义了多种定量和主观指标来评估韵律转移，展示了在不同模型上韵律转移任务的结果和相应的音频样本。

Mar, 2018

面向风格的语音：面至声自然零样本语音合成中面部图像的改进潜在映射

通过面部图像生成声音对于开发能够使用其独特声音进行互动的虚拟人类非常重要，本文介绍了一种基于面部图像而非参考语音生成自然语音的零样本文本到语音合成模型（Face-StyleSpeech），通过结合面部编码器和韵律编码器从面部图像中分别捕捉说话者身份和韵律特征来应对这一挑战，并通过实验结果证明该模型在生成面部图像对应的自然语音方面胜过基准模型，甚至对未训练过的面部图像也有效。

Sep, 2023

非自回归语音合成的分层韵律建模

分析了不同韵律建模设置下的非自回归 TTS 模型行为，并提出了一种层次结构，其中基于单词级韵律特征来预测音素级韵律特征的方法，该方法在客观和主观评估中在音频质量和语音韵律自然性方面优于其他竞争对手。

Nov, 2020

通过合成注释实现高保真度文本转语音的自然语言指导

通过对大规模数据集进行训练的文本到语音模型展示了令人印象深刻的语境学习能力和自然度。然而，这些模型中的说话人身份和风格的控制通常需要以参考语音录音为基础，从而限制了其创造性应用。相反，关于说话人身份和风格的自然语言提示已经展示了有希望的结果，并提供了一种直观的控制方法。然而，依赖于人工标注的描述限制了其扩展到大规模数据集的能力。我们的工作弥合了这两种方法之间的差距。我们提出了一种可扩展的方法来对说话人身份、风格和录音条件的各个方面进行标注。然后，我们将这种方法应用到一个 45k 小时的数据集上，用于训练语音语言模型。此外，我们提出了简单的方法来增加音频保真度，尽管完全依赖于现有数据，但性能显著超越了最近的工作。我们的结果展示了通过单一模型和直观的自然语言条件，实现了高保真度的语音生成，在各种口音、韵律风格、信道条件和声学条件下均表现出色。可以在此网址听到音频样本。

Feb, 2024