利用量化的细粒度 VAE 和自回归韵律先验生成多样且自然的文本语音样本

Feb, 2020

利用量化的细粒度 VAE 和自回归韵律先验生成多样且自然的文本语音样本

Generating diverse and natural text-to-speech samples using a quantized fine-grained VAE and auto-regressive prosody prior

PDF

Guangzhi Sun, Yu Zhang, Ron J. Weiss, Yuan Cao, Heiga Zen...

TL;DR本文提出了一种离散潜在空间的顺序先验方法，可以更自然地生成高度连续的语音，通过使用向量量化（VQ）对潜在特征进行离散化，并分别在结果上训练自回归（AR）先验模型，在听觉测试和自动语音识别（ASR）性能的客观指标方面，实验结果表明所提出的模型显著提高了随机样本生成的自然度，而且随机从所提出的模型中采样可以用作提高 ASR 性能的数据增强。

Abstract

Recent neural text-to-speech (TTS) models with fine-grained latent features enable precise control of the prosody of synthesized speech. Such models typically incorporate a fine-grained variational autoencoder (V

neural text-to-speech prosody control latent features vector quantization automatic speech recognition

发现论文，激发创造

可解释语音合成的全层次精细韵律建模

本文提出了一种基于 Tacotron 2 的分层、细粒度和可解释的潜变量模型，实现了 prosody 的多分辨率建模，并使用有条件的 VAE 结构对所有潜在维度进行分层约束，提升了模型的可解释性和分离性能。

Feb, 2020

神经离散表征学习

本文提出了一种简单而强大的生成模型，学习离散表示，可以生成高质量的图像、视频和语音，同时进行说话人转换和音素无监督学习。

Nov, 2017

利用 VQ-VAE-2 生成多样高保真度图像

本文探讨矢量量化变分自编码器模型 (VQ-VAE) 进行大规模图像生成的应用，采用自回归先验信息，结合简单前馈编码器和解码器网络，以压缩的潜变量空间进行自动回归模型采样，同时使用多尺度层级 VQ-VAE 进行生成，取得比 Generative Adversarial Networks 更加优秀的样本生成品质。

Jun, 2019

为语音生成与转换学习潜在表征

使用变分自编码器实现了对自然语音生成过程的建模与学习，获得了较大突破。利用学习的潜在空间算术操作，实现了对语音的音素内容或说话人身份的无监督修改，无需平行监控数据。

Apr, 2017

多说者语音合成的细粒度噪声控制

本文提出了一种基于对抗训练、表示瓶颈和音框级建模的无监督噪音建模方法和基于全层次变分自编码器的细粒度语调建模方法，以更好地进行语音合成并将主要因素与噪声和背景噪声分离。

Apr, 2022

潜在自回归源分离

本论文介绍了一种名为 LASS 的矢量量化潜在自回归源分离方法，通过贝叶斯公式和构建离散概率密度函数来实现无需额外微调和修改现有模型即可将输入信号分离成其成分源，该方法在图像和音频分离方面表现出具有竞争力的结果。

Jan, 2023

DiscreTalk: 将文本转语音作为机器翻译问题

本文提出了一种基于神经机器翻译 (NMT) 的全自动文本语音 (E2E-TTS) 模型，该模型由非自回归向量量化变分自动编码器 (VQ-VAE) 模型和自回归 Transformer-NMT 模型两部分组成，实验结果表明，该模型在自然度方面表现优异，可与 VQ-VAE 模型的重构相媲美。

May, 2020

Diffsound: 文本生成音效的离散扩散模型

本研究提出了一种基于非自回归解码器、矢量量化变分自编码器、谱图及声码器的文本到声音生成框架，在声音生成效果和速度方面较传统的自回归解码器都有较大的提升。

Jul, 2022

使用 AR 和基于流的先验网络预测音素级韵律潜变量用于表现力语音合成

本文比较了不同架构（prior architectures）在预测从 FVAE 模型中提取的音素级韵律表示方面的表现，并使用主观和客观指标证明了基于正规化流的先验网络可以在表现力方面产生更加生动的语音，并提出了一个动态 VAE 模型与基于流的模型相比，尽管在表现力和变异性上有所减少，但可以产生更高质量的语音。

Nov, 2022

具有双向先验模型的矢量量化时间序列生成

提出了一种名为 TimeVQVAE 的新模型，它使用矢量量化技术解决时间序列生成（TSG）问题，通过在时频域中分离出低频和高频来保留时间序列的重要特征，并使用双向转换模型学习离散潜在空间的先验知识，使其具有更好的全局时间一致性和更好的质量。

Mar, 2023