通过音素级内容 - 风格解耦实现文本转语音合成中的细粒度风格建模、转移和预测

Nov, 2020

通过音素级内容 - 风格解耦实现文本转语音合成中的细粒度风格建模、转移和预测

Fine-grained Style Modeling, Transfer and Prediction in Text-to-Speech Synthesis via Phone-Level Content-Style Disentanglement

PDF

Daxin Tan, Tan Lee

TL;DR该论文提出了一种新型的神经网络系统，用于情感文本转语音合成中的细粒度风格建模、转移和预测，该系统通过从音素水平的语音段的梅尔光谱图中提取风格嵌入来实现细粒度建模，并应用协作学习和对抗学习策略来实现内容和风格因素的有效区分。该系统不仅可以用于单个说话者情况下的不同内容的语音风格转移，还可以用于文本到语音合成，并在内容保留方面表现更好。

Abstract

This paper presents a novel design of neural network system for fine-grained style modeling, transfer and prediction in expressive text-to-speech (TTS) synthesis. Fine-grained modeling is realized by extracting style embeddings from the mel-spectrograms of phone-level speech segments.

neural network fine-grained style modeling tts synthesis collaborative learning style predictor

发现论文，激发创造

基于风格描述的条件韵律层归一化扩散生成对抗网络的文本转语音

使用基于扩散生成对抗网络的方法（Prosodic Diff-TTS），通过将风格描述和内容文本作为输入生成仅经过 4 个去噪步骤的高保真语音样本。它利用了新颖的条件韵律层归一化，将风格嵌入结合到基于多头注意力的音素编码器和基于梅尔频谱图解码器的生成器体系结构中来生成语音。风格嵌入是通过在辅助任务上微调预训练的 BERT 模型，如音高、说话速度、情感和性别分类等生成的。我们使用多种量化指标对我们提出的架构在多说话人 LibriTTS 和 PromptSpeech 数据集上的有效性进行了验证，以衡量生成的准确性和 MOS 值。

Oct, 2023

无监督文本风格转移中的结构内容保持

本文提出了一种基于结构化细粒度监督的内容保留模型，利用语言信息并设定模型目标以达到在改变句子的风格的同时更好地保留与风格无关的内容，进行情感和政治倾向转换任务的实验表明该模型在内容保留和风格转换上表现出显著改善。

Oct, 2018

样式手册：只使用语音数据进行任意 - 任意语音转换的内容相关说话风格建模

本文提出一种新方法，通过自监督学习 (SSL) 模型形成注意机制，从目标话语中提取丰富的风格信息并将其高效地转移到源语音内容，从而在无需文本转录或说话者标签的情况下忠实地再现目标说话者的说话风格。通过将风格信息和源语音内容作为输入，利用扩散式解码器生成转换的语音 mel 频谱图，实验证明本方法与扩散式生成模型结合能在任何语音转换任务中实现更好的说话者相似性，并且对于长话语的计算复杂度增加的抑制效果较好。

Sep, 2023

StyleTTS：一种基于样式的生成模型，用于自然且多样化的文本转语音合成

提出了 StyleTTS，一种基于风格的生成模型，用于生成具有自然韵律的多样化语音，通过自监督学习表示发声风格，无需明确标记。在内部评估中，该模型在单人和多人语音数据集中均优于最先进的模型。

May, 2022

情感语音合成的细粒度情感强度传输、控制和预测

本文提出了一种用于序列到序列的细粒度情感语音合成的统一模型，通过学习到的排名函数引入音素级情感强度表示来描述本地情感细节，并采用句子级情感类别来呈现合成语音的全局情感。

Nov, 2020

使用半监督风格提取器和分层建模提高跨说话人风格转移的韵律表现在语音合成中

提出了一种强度可控半监督风格提取器，用于解开语音中的风格、内容和音色，同时设计了分层韵律预测器以提高其音韵建模，并提出跨发话人循环一致性损失作为训练阶段辅助模型学习未见过的风格 - 音色组合，并展示它的效果优于基线方法。

Mar, 2023

多说者语音合成的细粒度噪声控制

本文提出了一种基于对抗训练、表示瓶颈和音框级建模的无监督噪音建模方法和基于全层次变分自编码器的细粒度语调建模方法，以更好地进行语音合成并将主要因素与噪声和背景噪声分离。

Apr, 2022

Grad-StyleSpeech: 基于扩散模型的任意说话人自适应语音合成

本研究提出了一种基于扩散模型的 Grad-StyleSpeech 方法，可以在很短时间内生成极具声音相似度的自适应语音合成，并在英文基准测试中显著优于最新的语音合成基线。

Nov, 2022

深层生成模型进行无监督文本风格转换

我们提出了一个用深度生成模型进行无监督文本风格转换的通用框架，该框架利用观察数据中的依赖关系学习内容和风格的潜在代码，并通过操纵这些代码来转换句子。实验结果表明，与几个强基准方法相比，我们的方法在自动评估和人工评估中取得了更好或具有竞争力的结果。

Aug, 2023

基于对比学习的梯度导向无监督文本风格转换

本文提出了一种基于对比学习范式的新型文本风格转换模型，通过明确收集相似语义句子和设计基于孪生模型的风格分类器，以解决文本样式转换中的内容迁移和样式歧义等问题。针对这些问题，实验结果表明，该模型比现有技术更加有效。

Jan, 2022