跨语句有条件变分自编码器用于非自回归式文本到语音
利用神经网络驱动的语音合成系统解决了表达性语音和无缝编辑的问题,通过 Cross-Utterance Conditioned Variational Autoencoder speech synthesis (CUC-VAE S2) 框架提供了上下文敏感的韵律特征生成和模拟人类语音韵律生成的实现方式,并在文本转语音和语音编辑两个方面提出了实用的算法,实验证明这些模型显著提升了语音合成和编辑的效果。
Sep, 2023
提出了一种使用上下文信息和 BERT 嵌入的文本表征来在端到端的方式中进行语调生成,实验表明这种方法可以显著提高合成语音的自然度和表现力,并可以通过更改相邻的句子间接地控制语调。
Nov, 2020
本文提出了一种新的无监督文本到语音(UTTS)框架,支持零样本语音克隆和高自然度、可理解度语音合成,是从分离的语音表示学习的角度开发的多说话人语音合成器,其利用了最近在自监督语音表示学习和语音合成前端技术方面的先进进展,在训练期间提供了条件分离的时序变分自编码器(C-DSVAE)作为骨干 UTTS AM。
Jun, 2022
本文提出了一种离散潜在空间的顺序先验方法,可以更自然地生成高度连续的语音,通过使用向量量化(VQ)对潜在特征进行离散化,并分别在结果上训练自回归(AR)先验模型,在听觉测试和自动语音识别(ASR)性能的客观指标方面,实验结果表明所提出的模型显著提高了随机样本生成的自然度,而且随机从所提出的模型中采样可以用作提高 ASR 性能的数据增强。
Feb, 2020
通过引入 Uncertainty Aware CVAE 框架来近似和整合响应生成过程中的 aleatoric 不确定性,改善个性化和移情式对话生成中生成响应的上下文连贯性。同时,研究者们提出了一种新的自动度量方法来衡量生成响应的上下文连贯性,并且该度量与人类的判断显著相关。
Feb, 2022
该研究提出了一种神经序列到序列的文本转语音模型,基于变分自动编码器(VAE)框架,通过两级分层潜变量,实现对生成语音中很少被训练数据标记的潜在属性的控制,包括口音、语速、噪声等,其中第一级为类别变量,第二级为多元高斯变量,通过高斯混合模型 (GMM) 实现。经广泛评估,该模型展现出控制这些潜在属性的能力。
Oct, 2018
本文提出了一种基于 Tacotron 2 的分层、细粒度和可解释的潜变量模型,实现了 prosody 的多分辨率建模,并使用有条件的 VAE 结构对所有潜在维度进行分层约束,提升了模型的可解释性和分离性能。
Feb, 2020
本篇论文提出了一种使用正则化流和对抗式训练改进的变分推断的并行端到端的语音合成方法,还引入了基于随机预测的语音节奏模型来解决单一文本多样合成的问题。主题涉及文本转语音、端到端模型、变分推断、随机预测、生成模型。相关实验显示本方法表现优于其他公开数据集上的最佳 TTS 系统,并能达到类似于真实语音自然度的效果。
Jun, 2021
本文提出了一个采用多层变分自动编码器和残差注意机制的 VARA-TTS 非自回归文本到语音模型,通过逐层精细化文本到声学对齐,将学习负担分摊到多个注意力层中,相比单个注意力层具有更强的稳健性,并使用一个共同训练的发音速度预测器计算话语级别的发音速度,以确定推理时的声学帧数。实验结果表明,VARA-TTS 在推理速度上具有数量级的提升,并且语音质量略逊于 AR 模型 Tacotron 2,但在语音质量方面优于相似的非自回归模型 BVAE-TTS。
Feb, 2021