利用直觉的韵律特征进行可控的神经文本转语音合成

Sep, 2020

利用直觉的韵律特征进行可控的神经文本转语音合成

Controllable neural text-to-speech synthesis using intuitive prosodic features

Tuomo Raitio, Ramya Rasipuram, Dan Castellani

TL;DR通过使用一种基于序列对序列神经网络的方法，对音频语音特征进行条件训练，以学习一个直观且有意义的潜在韵律空间，进一步控制音调、音高、语音能量等特征参数，生成多种音色，并维持与 Tacotron 基线模型相似的评分（4.26/4.23）。

Abstract

Modern neural text-to-speech (TTS) synthesis can generate speech that is indistinguishable from natural speech. However, the prosody of generated utterances often represents the average prosodic style of the database instead of having wide prosodic variation. Moreover, the generated

neural text-to-speech synthesis prosody sequence-to-sequence neural network latent prosody space acoustic speech features

发现论文，激发创造

具有韵律修饰能力的序列到序列神经语音合成

本研究提出了一种自动化的方法，使得系统意识到抑扬顿挫，从而在连续的尺度上实现句子级的语调控制，从而改善合成语音的整体质量和表现力，并提出了一种新型的增强注意机制，以实现更好的步伐控制灵敏度和更快的关注收敛。

Sep, 2019

基于语言驱动的动态分层变分网络合成不同语调语音

本研究提出了一种新的层次化有条件变分自编码器，用于生成声调特征，可用于合成语音信号，与现有技术相比具有更高的性能。

May, 2019

神经语音合成调查

本文全面调研了神经网络 TTS 在包括文本分析、声学模型、声码器等方面的研究进展，进一步总结了相关资源（数据集、开源实现），并提出了未来的研究方向。

Jun, 2021

可控口音的语音合成

该论文提出了一种神经网络 TTS 架构，可在推理期间控制重音和重音强度，并以三种新机制实现，即使用方案控制因子建模复杂的重音变异，量化重音强度的强调强度建模策略以及一致性约束模块。实验为该模型的重音渲染和强度控制性能提供了证明，并证明其是有史以来第一篇关于具有明确强度控制的重音 TTS 合成的研究。

Sep, 2022

半监督生成建模用于可控语音合成

本文提出一种新颖的生成模型，它将最先进的神经文本到语音技术和半监督概率潜变量模型相结合。通过对某些潜变量进行部分监督，我们能够强制它们具有一致和可解释的特征，这在纯无监督的文本到语音模型中过去是不可能的。我们证明了我们的模型能够可靠地发现和控制语音的重要属性（例如情感和语速），即使只监督 1％（30 分钟）。在这样低的监督水平下，我们观察不到合成质量与最先进的基线水平相比的下降。

Oct, 2019

使用韵律和语言特征探究基于内容感知的神经文本语音合成 MOS 预测

该研究探讨了将韵律和语言特征作为 MOS 预测系统的附加输入的影响，发现包含 Tacotron 编码器输出和 BERT 嵌入等高级语言输入显著提高了句子和系统层面的预测准确度。

Nov, 2022

PoeticTTS -- 用于文学研究的可控诗歌朗读

本研究提出了一种方法，对诗歌进行语音合成，从而使文学学者可以系统地研究文本、口语实现和听众对诗歌的感知之间的相互影响，并发现该方法在客观评估和人类研究中取得了成功。

Jul, 2022

简单有效的多句 TTS 系统，具有表达和连贯的韵律

本文针对长文本合成语音的特殊困难，通过将上下文信息、强大文本特征和多人数据用于 Transformer-based FastSpeech 的简单扩展，改进了合成语音的韵律，其中 BERT 也受益于更多的训练数据。通过客观的停顿和速度指标和全面的主观评估，得出了一种较强的合成语音系统，其中包括所有改进扩展，相对于同类竞品在语音自然度方面表现出显著的提升。

Jun, 2022

基于风格描述的条件韵律层归一化扩散生成对抗网络的文本转语音

使用基于扩散生成对抗网络的方法（Prosodic Diff-TTS），通过将风格描述和内容文本作为输入生成仅经过 4 个去噪步骤的高保真语音样本。它利用了新颖的条件韵律层归一化，将风格嵌入结合到基于多头注意力的音素编码器和基于梅尔频谱图解码器的生成器体系结构中来生成语音。风格嵌入是通过在辅助任务上微调预训练的 BERT 模型，如音高、说话速度、情感和性别分类等生成的。我们使用多种量化指标对我们提出的架构在多说话人 LibriTTS 和 PromptSpeech 数据集上的有效性进行了验证，以衡量生成的准确性和 MOS 值。

Oct, 2023

揭示表现力语音合成的潜在风格因素

本研究通过引入风格编码器，提出了一种基于数据驱动学习的语音合成模型，无需额外标注即可单独学习语音中的韵律风格，能够在一定程度上预测并控制合成语音的韵律风格。

Nov, 2017