DiffProsody: 基于扩散的潜在韵律生成，用于具有韵律条件对抗训练的表情化语音合成

Jul, 2023

DiffProsody: 基于扩散的潜在韵律生成，用于具有韵律条件对抗训练的表情化语音合成

DiffProsody: Diffusion-based Latent Prosody Generation for Expressive Speech Synthesis with Prosody Conditional Adversarial Training

PDF

Hyung-Seok Oh, Sang-Hoon Lee, Seong-Whan Lee

TL;DR通过使用基于扩散的潜在韵律生成器和韵律条件对抗训练的新方法 DiffProsody，本研究证实了其在生成韵律向量方面的有效性，并且韵律条件鉴别器通过准确模拟韵律极大提高了生成语音的质量。使用去噪扩散生成对抗网络提高了韵律生成的速度，因此 DiffProsody 能够比传统的扩散模型生成韵律的速度快 16 倍。通过实验证明了我们提出的方法具有卓越的性能。

Abstract

Expressive text-to-speech systems have undergone significant advancements owing to prosody modeling, but conventional methods can still be improved. Traditional approaches have relied on the autoregressive method

text-to-speech systems prosody modeling diffprosody latent prosody generator generative adversarial networks

发现论文，激发创造

DiffVoice: 基于潜在扩散的文本到语音

本文提出 DiffVoice，一种基于潜在扩散的文本转语音模型。在 LJSpeech 和 LibriTTS 数据集上的主观评价表明，我们的方法在自然度方面优于当前公开可用的最佳系统，并且通过采用最近的生成逆问题解决算法，DiffVoice 在基于文本的语音编辑和零样本适应方面实现了最先进的性能。

Apr, 2023

ProsoSpeech: 用量化向量预训练增强语音合成的韵律

介绍 ProsoSpeech 模型，通过量化预训练的潜在语调向量来增强 Prosody，该模型可生成具有比基线模型更丰富 Prosody 的表达性音频。

Feb, 2022

基于语言驱动的动态分层变分网络合成不同语调语音

本研究提出了一种新的层次化有条件变分自编码器，用于生成声调特征，可用于合成语音信号，与现有技术相比具有更高的性能。

May, 2019

基于风格描述的条件韵律层归一化扩散生成对抗网络的文本转语音

使用基于扩散生成对抗网络的方法（Prosodic Diff-TTS），通过将风格描述和内容文本作为输入生成仅经过 4 个去噪步骤的高保真语音样本。它利用了新颖的条件韵律层归一化，将风格嵌入结合到基于多头注意力的音素编码器和基于梅尔频谱图解码器的生成器体系结构中来生成语音。风格嵌入是通过在辅助任务上微调预训练的 BERT 模型，如音高、说话速度、情感和性别分类等生成的。我们使用多种量化指标对我们提出的架构在多说话人 LibriTTS 和 PromptSpeech 数据集上的有效性进行了验证，以衡量生成的准确性和 MOS 值。

Oct, 2023

基于原始音标输入和显式韵律建模的文本转语音合成的生成对抗训练

通过生成对抗训练的端到端语音合成系统，我们使用明确的语音、音高和时长建模来训练我们的原始音素到音频转换的 Vocoder，并通过几种预训练模型来实验上下文化和去上下文化的词嵌入，同时介绍一种基于离散风格标记的高度表达的字符声音匹配方法。

Oct, 2023

可解释语音合成的全层次精细韵律建模

本文提出了一种基于 Tacotron 2 的分层、细粒度和可解释的潜变量模型，实现了 prosody 的多分辨率建模，并使用有条件的 VAE 结构对所有潜在维度进行分层约束，提升了模型的可解释性和分离性能。

Feb, 2020

基于 Tacotron 的端到端韵律转移实现情感化语音合成

本文提出了一个通过学习潜在的韵律嵌入空间，从包含所需韵律的参考声学信号中扩展 Tacotron 语音合成架构的方法，利用学习到的韵律嵌入空间来进行条件控制，达到了即使参考信号和合成说话人不同也能匹配参考语音韵律细节的合成语音效果，并定义了多种定量和主观指标来评估韵律转移，展示了在不同模型上韵律转移任务的结果和相应的音频样本。

Mar, 2018

通过可控潜在扩散实现同义重述生成的强制执行

本文提出一种名为 LDP 的新型模型，即 extit {L} atent extit {D} iffusion extit {P} araphraser，用于生成改写句，通过建模可控的扩散过程，并在学习到的潜在空间中实现了更高的生成效率和改写质量，它仅使用输入片段以确保改写语义，并不需要外部特征，在实验中显示 LDP 相较于基线方法，实现了改进和多样的改写生成，并对其他类似文本生成和领域适应的任务也具有帮助。

Apr, 2024

利用直觉的韵律特征进行可控的神经文本转语音合成

通过使用一种基于序列对序列神经网络的方法，对音频语音特征进行条件训练，以学习一个直观且有意义的潜在韵律空间，进一步控制音调、音高、语音能量等特征参数，生成多种音色，并维持与 Tacotron 基线模型相似的评分（4.26/4.23）。

Sep, 2020

DiffAR: 去噪扩散自回归模型用于原始语音波形生成

本文提出了一种基于扩散的概率端到端模型，用于生成原始语音波形，该模型通过自回归的方式顺序生成重叠帧，可以实现无限语音时长的合成，并保持高保真度和时间连贯性，通过直接处理波形具有优势，可以创建局部声学行为，同时该模型是随机的，生成略有差异的波形变体，实验结果表明相较于其他最先进的神经语音生成系统，所提出的模型具有更高的合成质量。

Oct, 2023