基于语音帧和语音风格重构损失的富表现力 TTS 训练

Aug, 2020

基于语音帧和语音风格重构损失的富表现力 TTS 训练

Expressive TTS Training with Frame and Style Reconstruction Loss

Rui Liu, Berrak Sisman, Guanglai Gao, Haizhou Li

TL;DR该研究提出了一种基于 Tacotron 的文本到语音系统的新训练策略，通过使用感知损失函数实现了在样式重建损失下的语音风格的习得，最终在自然度和表现力上都实现了非凡的性能，该模型是首次将感知质量作为损失函数并纳入 Tacotron 训练，从而实现更好的表现力。

Abstract

We propose a novel training strategy for Tacotron-based text-to-speech (TTS) system to improve the expressiveness of speech. One of the key challenges in →

tacotron-based tts prosody modeling training strategy perceptual loss expressiveness

发现论文，激发创造

揭示表现力语音合成的潜在风格因素

本研究通过引入风格编码器，提出了一种基于数据驱动学习的语音合成模型，无需额外标注即可单独学习语音中的韵律风格，能够在一定程度上预测并控制合成语音的韵律风格。

Nov, 2017

基于 Tacotron 的 TTS 的师生训练以实现鲁棒性

本文提出了一种基于教师 - 学生训练方案的 Tacotron 文本转语音系统解决自回归模型中的曝光偏差问题，并使用知识蒸馏使学生模型学习教师模型的输出概率，取得了在中英文系统中对于域外测试数据语音质量的稳定提升。

Nov, 2019

基于 Tacotron 的端到端韵律转移实现情感化语音合成

本文提出了一个通过学习潜在的韵律嵌入空间，从包含所需韵律的参考声学信号中扩展 Tacotron 语音合成架构的方法，利用学习到的韵律嵌入空间来进行条件控制，达到了即使参考信号和合成说话人不同也能匹配参考语音韵律细节的合成语音效果，并定义了多种定量和主观指标来评估韵律转移，展示了在不同模型上韵律转移任务的结果和相应的音频样本。

Mar, 2018

使用 Style 标签的生动文本转语音技术

本文提出了一种使用自然语言编写的样式标记的新型情感语音合成模型 StyleTagging-TTS，并使用预训练的语言模型对语言嵌入和说话风格域之间的关系进行建模，实现了对未见过的样式标记的控制。相比目前的表情 TTS 模型，该模型表现出更好的语音质量和表现力。

Apr, 2021

自监督上下文感知风格表示在表现性语音合成中的应用

本文提出了一种利用自我监督学习从大量纯文本中学习风格表达的新框架，采用情感词典和对比学习和深度聚类，最终在多风格变换文本到语音系统中得到了更好的结果。

Jun, 2022

情境表达式语音合成

本研究提出了一种新的任务设置，即什么样的语音是由特定环境所决定的，而非仅仅局限于情绪的预定义类别，为此，我们构建了一个综合数据集并开发了一个有效的框架来生成高质量的自然语音。

Nov, 2022

基于风格描述的条件韵律层归一化扩散生成对抗网络的文本转语音

使用基于扩散生成对抗网络的方法（Prosodic Diff-TTS），通过将风格描述和内容文本作为输入生成仅经过 4 个去噪步骤的高保真语音样本。它利用了新颖的条件韵律层归一化，将风格嵌入结合到基于多头注意力的音素编码器和基于梅尔频谱图解码器的生成器体系结构中来生成语音。风格嵌入是通过在辅助任务上微调预训练的 BERT 模型，如音高、说话速度、情感和性别分类等生成的。我们使用多种量化指标对我们提出的架构在多说话人 LibriTTS 和 PromptSpeech 数据集上的有效性进行了验证，以衡量生成的准确性和 MOS 值。

Oct, 2023

StyleTTS：一种基于样式的生成模型，用于自然且多样化的文本转语音合成

提出了 StyleTTS，一种基于风格的生成模型，用于生成具有自然韵律的多样化语音，通过自监督学习表示发声风格，无需明确标记。在内部评估中，该模型在单人和多人语音数据集中均优于最先进的模型。

May, 2022

利用直觉的韵律特征进行可控的神经文本转语音合成

通过使用一种基于序列对序列神经网络的方法，对音频语音特征进行条件训练，以学习一个直观且有意义的潜在韵律空间，进一步控制音调、音高、语音能量等特征参数，生成多种音色，并维持与 Tacotron 基线模型相似的评分（4.26/4.23）。

Sep, 2020

利用语言模型探索语音风格空间：无情感标签的情感合成

设计了一个新颖的两阶段框架 TEMOTTS，用于基于文本的情感语音合成任务，该框架在没有情感标签和文本提示的情况下进行训练，并能够无需辅助输入进行推理。利用 BERT 学习的语言空间和全局风格标记构建的情感风格空间之间进行知识转移，实验证明了该框架的有效性，提高了情感准确性和自然度。这是第一个充分利用口头内容与表现风格之间情感相关性的情感语音合成研究之一。

May, 2024