基于生成潜变量模型的语音对比基准测试

ICLRFeb, 2022

基于生成潜变量模型的语音对比基准测试

Benchmarking Generative Latent Variable Models for Speech

Jakob D. Havtorn, Lasse Borgholt, Søren Hauberg, Jes Frellsen, Lars Maaløe

TL;DR该研究发展了一种基于时间的语音 LVM 基准，并将其与实用模型进行了比较，结合使用度量标准以及潜在变量等进行定量的分析。同时，也探究了建立在多个潜在变量层次上的时钟 VAE 模型在提高语音生成表现中的应用。

Abstract

stochastic latent variable models (LVMs) achieve state-of-the-art performance on natural image generation but are still inferior to deterministic models on speech. In this paper, we develop a speech benchmark of popular temporal LVMs and compare them against state-of-the-art determinis

stochastic latent variable models speech recognition clockwork vae phoneme recognition latent variables

发现论文，激发创造

为语音生成与转换学习潜在表征

使用变分自编码器实现了对自然语音生成过程的建模与学习，获得了较大突破。利用学习的潜在空间算术操作，实现了对语音的音素内容或说话人身份的无监督修改，无需平行监控数据。

Apr, 2017

一种卷积深度马尔可夫模型用于无监督语音表征学习

本文提出了 ConvDMM，这是一种使用非线性发射和转移函数模型的高斯状态空间模型，并使用深度卷积神经网络作为结构变分近似的推理网络的无监督模型。当在大规模语音数据集上进行训练时，ConvDMM 产生的特征在线性电话分类和在 WSJ 数据集上的识别方面显着优于多个自我监督的特征提取方法，并且可以与 Wav2Vec 和 PASE 等自我监督的方法相辅相成，进一步提高了结果。最后，我们发现，在少量标记训练示例的极低资源之下，ConvDMM 功能使得学习更好的电话识别器比任何其他功能。

Jun, 2020

文本生成的隐式深度潜变量模型

本文提出了一种基于采样的变分分布表示方法，用于自然语言生成中 deep latent variable models，并通过最大化互信息的正则化来解决 posterior collapse 问题，进一步发展了 VAE，并在多个文本生成场景中证明了其有效性和通用性。

Aug, 2019

贝叶斯 Transformer 语言模型在语音识别中的应用

使用贝叶斯学习框架和变分推断优化，提高了 Transformer 神经语言模型的泛化性能和模型鲁棒性。在 Switchboard 语料库和 DementiaBank 中的实验都获得了明显的性能提升。

Feb, 2021

学习鲁棒的潜在特征表示用于可控语音合成

提出了一种 RTI-VAE 方法，使用修改过的 Transformer 架构和信息减少技术来学习可控制的语音数据的潜在变量，从而降低说话者属性聚类的重叠率，相比于 LSTM-VAE 和 vanilla Transformer-VAE，降低了至少 30％和至少 7％的重叠率。

May, 2021

深度生成语言模型的有效估计

本文探讨了利用深度神经网络对概率模型进行参数化的变分推断方法在语言建模上出现的后验坍塌问题，介绍了多种解决方案和模型扩展，并通过贝叶斯优化系统性比较了这些方法的效果和差异，同时提供了一些实践建议。

Apr, 2019

可解释语音合成的全层次精细韵律建模

本文提出了一种基于 Tacotron 2 的分层、细粒度和可解释的潜变量模型，实现了 prosody 的多分辨率建模，并使用有条件的 VAE 结构对所有潜在维度进行分层约束，提升了模型的可解释性和分离性能。

Feb, 2020

变分扩散模型

本文介绍了一种基于扩散的生成模型，并通过优化噪声时间表等带有高效率的方法，使其在标准图像密度估计基准测试中获得最先进的似然。

Jul, 2021

层次式生成模型用于可控语音合成

该研究提出了一种神经序列到序列的文本转语音模型，基于变分自动编码器（VAE）框架，通过两级分层潜变量，实现对生成语音中很少被训练数据标记的潜在属性的控制，包括口音、语速、噪声等，其中第一级为类别变量，第二级为多元高斯变量，通过高斯混合模型 (GMM) 实现。经广泛评估，该模型展现出控制这些潜在属性的能力。

Oct, 2018

半监督生成建模用于可控语音合成

本文提出一种新颖的生成模型，它将最先进的神经文本到语音技术和半监督概率潜变量模型相结合。通过对某些潜变量进行部分监督，我们能够强制它们具有一致和可解释的特征，这在纯无监督的文本到语音模型中过去是不可能的。我们证明了我们的模型能够可靠地发现和控制语音的重要属性（例如情感和语速），即使只监督 1％（30 分钟）。在这样低的监督水平下，我们观察不到合成质量与最先进的基线水平相比的下降。

Oct, 2019