通过学习离散音素级韵律表示实现可控语音合成

MMNov, 2022

通过学习离散音素级韵律表示实现可控语音合成

Controllable speech synthesis by learning discrete phoneme-level prosodic representations

Nikolaos Ellinas, Myrsini Christidou, Alexandra Vioni, June Sig Sung, Aimilios Chalamandaris...

TL;DR本文介绍一种使用直观的离散标签实现音素级 F0 和时长控制的新方法，其使用无监督的韵律聚类过程将音素级 F0 和时长特征离散化为韵律标签的输入序列，该模型不需要参考语音就能合成语音，并具有高质量的语音输出和有效的韵律控制能力。

Abstract

In this paper, we present a novel method for phoneme-level prosody control of f0 and duration using intuitive discrete labels. We propose

prosody control phoneme-level f0 speech synthesis unsupervised clustering

发现论文，激发创造

无监督的词级韵律标记技术用于可控语音合成

提出了一种基于决策树和 GMM 的无监督词级韵律标记方法，利用这种方法训练的 TTS 系统可以实现可控语音合成。实验结果显示，与 typical FastSpeech2 模型相比，使用词级韵律标记的 TTS 模型不仅具有更好的自然度，而且还能够操作词级韵律。

Feb, 2022

一个自监督离散语音单元的统一单次韵律和说话人转换系统

我们提出了一种统一的系统，可以实现一次性的声音转换，包括语调、节奏和说话人属性，并利用自监督离散语音单元作为语言表示来解决语音转换过程中自然度、完整性等问题，并通过实验证明其在自然度、可理解性、说话人迁移性和韵律迁移性方面优于以往的方法。

Nov, 2022

多说者语音合成的细粒度噪声控制

本文提出了一种基于对抗训练、表示瓶颈和音框级建模的无监督噪音建模方法和基于全层次变分自编码器的细粒度语调建模方法，以更好地进行语音合成并将主要因素与噪声和背景噪声分离。

Apr, 2022

利用直觉的韵律特征进行可控的神经文本转语音合成

通过使用一种基于序列对序列神经网络的方法，对音频语音特征进行条件训练，以学习一个直观且有意义的潜在韵律空间，进一步控制音调、音高、语音能量等特征参数，生成多种音色，并维持与 Tacotron 基线模型相似的评分（4.26/4.23）。

Sep, 2020

基于语言驱动的动态分层变分网络合成不同语调语音

本研究提出了一种新的层次化有条件变分自编码器，用于生成声调特征，可用于合成语音信号，与现有技术相比具有更高的性能。

May, 2019

面向单说者神经文本转语音的细粒度鲁棒性韵律转移

本文提出一种神经文本转语音系统，通过使用变分自动编码器并在音标级别上聚合韵律特征，实现了从一个说话者到另一个说话者的精细韵律转移，并且解决了参考信号文本缺失的问题。主要关键字为 “神经文本转语音系统”、“韵律转移”、“变分自动编码器”、“音素级时间戳” 和 “序列到序列”。

Jul, 2019

具有韵律修饰能力的序列到序列神经语音合成

本研究提出了一种自动化的方法，使得系统意识到抑扬顿挫，从而在连续的尺度上实现句子级的语调控制，从而改善合成语音的整体质量和表现力，并提出了一种新型的增强注意机制，以实现更好的步伐控制灵敏度和更快的关注收敛。

Sep, 2019

高保真度语音合成的最小监督方法：全部使用扩散模型

我们提出了一种基于扩散模型的最小监督高保真语音合成方法，其中所有模块均基于扩散模型构建，非自回归框架增强了可控性，持续时间扩散模型实现了多样化的韵律表达。

Sep, 2023

半监督生成建模用于可控语音合成

本文提出一种新颖的生成模型，它将最先进的神经文本到语音技术和半监督概率潜变量模型相结合。通过对某些潜变量进行部分监督，我们能够强制它们具有一致和可解释的特征，这在纯无监督的文本到语音模型中过去是不可能的。我们证明了我们的模型能够可靠地发现和控制语音的重要属性（例如情感和语速），即使只监督 1％（30 分钟）。在这样低的监督水平下，我们观察不到合成质量与最先进的基线水平相比的下降。

Oct, 2019

无文本长度限制语音合成系统的韵律学习机制

本文提出了一种基于 TTS 系统的韵律学习机制，利用本文语言模型的语义特征改进韵律预测结果，并提出了一种名为局部注意力的自注意力结构，以消除输入文本长度局限性，实验证明，我们的模型在英语和汉语合成中产生了更加令人满意的韵律，尤其在汉语合成中，我们的模型优于基准模型，MOS 差距为 0.08，合成语音的整体自然度得到了显著提高。

Aug, 2020