使用 AR 和基于流的先验网络预测音素级韵律潜变量用于表现力语音合成

Nov, 2022

使用 AR 和基于流的先验网络预测音素级韵律潜变量用于表现力语音合成

Predicting phoneme-level prosody latents using AR and flow-based Prior Networks for expressive speech synthesis

Konstantinos Klapsas, Karolos Nikitaras, Nikolaos Ellinas, June Sig Sung, Inchul Hwang...

TL;DR本文比较了不同架构（prior architectures）在预测从 FVAE 模型中提取的音素级韵律表示方面的表现，并使用主观和客观指标证明了基于正规化流的先验网络可以在表现力方面产生更加生动的语音，并提出了一个动态 VAE 模型与基于流的模型相比，尽管在表现力和变异性上有所减少，但可以产生更高质量的语音。

Abstract

A large part of the expressive speech synthesis literature focuses on learning prosodic representations of the speech signal which are then modeled by a prior distribution during inference. In this paper, we comp

expressive speech synthesis prosodic representations prior architectures fvae model normalizing flow

发现论文，激发创造

利用量化的细粒度 VAE 和自回归韵律先验生成多样且自然的文本语音样本

本文提出了一种离散潜在空间的顺序先验方法，可以更自然地生成高度连续的语音，通过使用向量量化（VQ）对潜在特征进行离散化，并分别在结果上训练自回归（AR）先验模型，在听觉测试和自动语音识别（ASR）性能的客观指标方面，实验结果表明所提出的模型显著提高了随机样本生成的自然度，而且随机从所提出的模型中采样可以用作提高 ASR 性能的数据增强。

Feb, 2020

正则流与扩散模型在文本转语音中的韵律和声学建模的比较

神经语音合成系统通常以 L1/L2 损失为优化目标，本研究比较了传统的基于 L1/L2 的方法与扩散和流模型在语音合成中的效果，并发现流模型在音谱图预测方面表现最佳，同时扩散和流模型在韵律预测方面也显著优于典型的 L2 训练模型。

Jul, 2023

基于语言驱动的动态分层变分网络合成不同语调语音

本研究提出了一种新的层次化有条件变分自编码器，用于生成声调特征，可用于合成语音信号，与现有技术相比具有更高的性能。

May, 2019

可解释语音合成的全层次精细韵律建模

本文提出了一种基于 Tacotron 2 的分层、细粒度和可解释的潜变量模型，实现了 prosody 的多分辨率建模，并使用有条件的 VAE 结构对所有潜在维度进行分层约束，提升了模型的可解释性和分离性能。

Feb, 2020

通过预测基于标记的声学潜变量学习话语级表示以用于情感语音合成

本论文提出了一种表达性语音合成模型，该模型利用标记级别的潜在韵律变量来捕捉和控制话语级别属性，如角色配音和说话风格，其中的潜在细节级别空间同时也捕捉更粗粒度的信息。

Nov, 2022

为语音生成与转换学习潜在表征

使用变分自编码器实现了对自然语音生成过程的建模与学习，获得了较大突破。利用学习的潜在空间算术操作，实现了对语音的音素内容或说话人身份的无监督修改，无需平行监控数据。

Apr, 2017

SIReN-VAE: 基于流和分摊推断的贝叶斯网络优化

本文探讨了如何将贝叶斯网络中的任意依赖结构引入变分自编码器 (VAEs) 中，通过引入图形残差流来实现。我们在多个合成数据集上比较了模型的性能，并展示其在数据稀缺情况下的潜力。

Apr, 2022

离散序列的潜在正则化流

提出了一种基于 VAE 的生成模型，该模型联合训练了基于正则化流的潜在空间分布和到观察到的离散空间的随机映射，解决了直接对离散序列应用正则化流所面临的挑战，并具有可比拟的性能和流灵活性。

Jan, 2019

AE-Flow：自动编码器归一化流

我们引入一种新的训练范式：自编码器归一化流（AE-Flow），它通过添加重构损失，使模型使用条件信息重构音频样本，结果表明该方法在正常化流的训练中系统地提高了说话者相似性和自然度。

Dec, 2023

基于归一化流的通用音频合成器控制

本文介绍了一种基于变分自编码器和归一化流的新型音频合成器控制形式，以寻找音频合成器的组织潜在声音空间并构建可逆映射到其参数空间的方法，能够同时解决自动参数推断、宏控制学习和基于音频预设的探索问题。实验证明其在参数推断和音频重建方面的优越性，同时还能学习到合成器的语义控制，具有广泛的创意应用价值。

Jul, 2019