基于语音帧和语音风格重构损失的富表现力 TTS 训练
本研究通过引入风格编码器,提出了一种基于数据驱动学习的语音合成模型,无需额外标注即可单独学习语音中的韵律风格,能够在一定程度上预测并控制合成语音的韵律风格。
Nov, 2017
本文提出了一种基于教师 - 学生训练方案的 Tacotron 文本转语音系统解决自回归模型中的曝光偏差问题,并使用知识蒸馏使学生模型学习教师模型的输出概率,取得了在中英文系统中对于域外测试数据语音质量的稳定提升。
Nov, 2019
本文提出了一个通过学习潜在的韵律嵌入空间,从包含所需韵律的参考声学信号中扩展 Tacotron 语音合成架构的方法,利用学习到的韵律嵌入空间来进行条件控制,达到了即使参考信号和合成说话人不同也能匹配参考语音韵律细节的合成语音效果,并定义了多种定量和主观指标来评估韵律转移,展示了在不同模型上韵律转移任务的结果和相应的音频样本。
Mar, 2018
本文提出了一种使用自然语言编写的样式标记的新型情感语音合成模型 StyleTagging-TTS,并使用预训练的语言模型对语言嵌入和说话风格域之间的关系进行建模,实现了对未见过的样式标记的控制。相比目前的表情 TTS 模型,该模型表现出更好的语音质量和表现力。
Apr, 2021
本文提出了一种利用自我监督学习从大量纯文本中学习风格表达的新框架,采用情感词典和对比学习和深度聚类,最终在多风格变换文本到语音系统中得到了更好的结果。
Jun, 2022
本研究提出了一种新的任务设置,即什么样的语音是由特定环境所决定的,而非仅仅局限于情绪的预定义类别,为此,我们构建了一个综合数据集并开发了一个有效的框架来生成高质量的自然语音。
Nov, 2022
使用基于扩散生成对抗网络的方法(Prosodic Diff-TTS),通过将风格描述和内容文本作为输入生成仅经过 4 个去噪步骤的高保真语音样本。它利用了新颖的条件韵律层归一化,将风格嵌入结合到基于多头注意力的音素编码器和基于梅尔频谱图解码器的生成器体系结构中来生成语音。风格嵌入是通过在辅助任务上微调预训练的 BERT 模型,如音高、说话速度、情感和性别分类等生成的。我们使用多种量化指标对我们提出的架构在多说话人 LibriTTS 和 PromptSpeech 数据集上的有效性进行了验证,以衡量生成的准确性和 MOS 值。
Oct, 2023
提出了 StyleTTS,一种基于风格的生成模型,用于生成具有自然韵律的多样化语音,通过自监督学习表示发声风格,无需明确标记。在内部评估中,该模型在单人和多人语音数据集中均优于最先进的模型。
May, 2022
通过使用一种基于序列对序列神经网络的方法,对音频语音特征进行条件训练,以学习一个直观且有意义的潜在韵律空间,进一步控制音调、音高、语音能量等特征参数,生成多种音色,并维持与 Tacotron 基线模型相似的评分(4.26/4.23)。
Sep, 2020
设计了一个新颖的两阶段框架 TEMOTTS,用于基于文本的情感语音合成任务,该框架在没有情感标签和文本提示的情况下进行训练,并能够无需辅助输入进行推理。利用 BERT 学习的语言空间和全局风格标记构建的情感风格空间之间进行知识转移,实验证明了该框架的有效性,提高了情感准确性和自然度。这是第一个充分利用口头内容与表现风格之间情感相关性的情感语音合成研究之一。
May, 2024