基于语言驱动的动态分层变分网络合成不同语调语音
本文提出了一种基于 Tacotron 2 的分层、细粒度和可解释的潜变量模型,实现了 prosody 的多分辨率建模,并使用有条件的 VAE 结构对所有潜在维度进行分层约束,提升了模型的可解释性和分离性能。
Feb, 2020
分析了不同韵律建模设置下的非自回归 TTS 模型行为,并提出了一种层次结构,其中基于单词级韵律特征来预测音素级韵律特征的方法,该方法在客观和主观评估中在音频质量和语音韵律自然性方面优于其他竞争对手。
Nov, 2020
通过使用一种基于序列对序列神经网络的方法,对音频语音特征进行条件训练,以学习一个直观且有意义的潜在韵律空间,进一步控制音调、音高、语音能量等特征参数,生成多种音色,并维持与 Tacotron 基线模型相似的评分(4.26/4.23)。
Sep, 2020
通过使用基于扩散的潜在韵律生成器和韵律条件对抗训练的新方法 DiffProsody,本研究证实了其在生成韵律向量方面的有效性,并且韵律条件鉴别器通过准确模拟韵律极大提高了生成语音的质量。使用去噪扩散生成对抗网络提高了韵律生成的速度,因此 DiffProsody 能够比传统的扩散模型生成韵律的速度快 16 倍。通过实验证明了我们提出的方法具有卓越的性能。
Jul, 2023
本文提出了一种基于对抗训练、表示瓶颈和音框级建模的无监督噪音建模方法和基于全层次变分自编码器的细粒度语调建模方法,以更好地进行语音合成并将主要因素与噪声和背景噪声分离。
Apr, 2022
本文提出一种神经文本转语音系统,通过使用变分自动编码器并在音标级别上聚合韵律特征,实现了从一个说话者到另一个说话者的精细韵律转移,并且解决了参考信号文本缺失的问题。主要关键字为 “神经文本转语音系统”、“韵律转移”、“变分自动编码器”、“音素级时间戳” 和 “序列到序列”。
Jul, 2019
该研究提出了一种利用时间结构的音调嵌入方法,实现对合成语音言语风格的精细控制,可在帧级别和音素级别改变合成语音的音高和振幅,并且通过嵌入的时间归一化得到更好的抵抗讲话风格扰动的鲁棒性。
Nov, 2018
本文提出了一种离散潜在空间的顺序先验方法,可以更自然地生成高度连续的语音,通过使用向量量化(VQ)对潜在特征进行离散化,并分别在结果上训练自回归(AR)先验模型,在听觉测试和自动语音识别(ASR)性能的客观指标方面,实验结果表明所提出的模型显著提高了随机样本生成的自然度,而且随机从所提出的模型中采样可以用作提高 ASR 性能的数据增强。
Feb, 2020
该研究提出了一种神经序列到序列的文本转语音模型,基于变分自动编码器(VAE)框架,通过两级分层潜变量,实现对生成语音中很少被训练数据标记的潜在属性的控制,包括口音、语速、噪声等,其中第一级为类别变量,第二级为多元高斯变量,通过高斯混合模型 (GMM) 实现。经广泛评估,该模型展现出控制这些潜在属性的能力。
Oct, 2018
本文介绍一种使用直观的离散标签实现音素级 F0 和时长控制的新方法,其使用无监督的韵律聚类过程将音素级 F0 和时长特征离散化为韵律标签的输入序列,该模型不需要参考语音就能合成语音,并具有高质量的语音输出和有效的韵律控制能力。
Nov, 2022