利用直觉的韵律特征进行可控的神经文本转语音合成
本研究提出了一种自动化的方法,使得系统意识到抑扬顿挫,从而在连续的尺度上实现句子级的语调控制,从而改善合成语音的整体质量和表现力,并提出了一种新型的增强注意机制,以实现更好的步伐控制灵敏度和更快的关注收敛。
Sep, 2019
该论文提出了一种神经网络 TTS 架构,可在推理期间控制重音和重音强度,并以三种新机制实现,即使用方案控制因子建模复杂的重音变异,量化重音强度的强调强度建模策略以及一致性约束模块。实验为该模型的重音渲染和强度控制性能提供了证明,并证明其是有史以来第一篇关于具有明确强度控制的重音 TTS 合成的研究。
Sep, 2022
本文提出一种新颖的生成模型,它将最先进的神经文本到语音技术和半监督概率潜变量模型相结合。通过对某些潜变量进行部分监督,我们能够强制它们具有一致和可解释的特征,这在纯无监督的文本到语音模型中过去是不可能的。我们证明了我们的模型能够可靠地发现和控制语音的重要属性(例如情感和语速),即使只监督 1%(30 分钟)。在这样低的监督水平下,我们观察不到合成质量与最先进的基线水平相比的下降。
Oct, 2019
该研究探讨了将韵律和语言特征作为 MOS 预测系统的附加输入的影响,发现包含 Tacotron 编码器输出和 BERT 嵌入等高级语言输入显著提高了句子和系统层面的预测准确度。
Nov, 2022
本研究提出了一种方法,对诗歌进行语音合成,从而使文学学者可以系统地研究文本、口语实现和听众对诗歌的感知之间的相互影响,并发现该方法在客观评估和人类研究中取得了成功。
Jul, 2022
本文针对长文本合成语音的特殊困难,通过将上下文信息、强大文本特征和多人数据用于 Transformer-based FastSpeech 的简单扩展,改进了合成语音的韵律,其中 BERT 也受益于更多的训练数据。通过客观的停顿和速度指标和全面的主观评估,得出了一种较强的合成语音系统,其中包括所有改进扩展,相对于同类竞品在语音自然度方面表现出显著的提升。
Jun, 2022
使用基于扩散生成对抗网络的方法(Prosodic Diff-TTS),通过将风格描述和内容文本作为输入生成仅经过 4 个去噪步骤的高保真语音样本。它利用了新颖的条件韵律层归一化,将风格嵌入结合到基于多头注意力的音素编码器和基于梅尔频谱图解码器的生成器体系结构中来生成语音。风格嵌入是通过在辅助任务上微调预训练的 BERT 模型,如音高、说话速度、情感和性别分类等生成的。我们使用多种量化指标对我们提出的架构在多说话人 LibriTTS 和 PromptSpeech 数据集上的有效性进行了验证,以衡量生成的准确性和 MOS 值。
Oct, 2023
本研究通过引入风格编码器,提出了一种基于数据驱动学习的语音合成模型,无需额外标注即可单独学习语音中的韵律风格,能够在一定程度上预测并控制合成语音的韵律风格。
Nov, 2017