为语音生成与转换学习潜在表征

Apr, 2017

Learning Latent Representations for Speech Generation and Transformation

Wei-Ning Hsu, Yu Zhang, James Glass

TL;DR使用变分自编码器实现了对自然语音生成过程的建模与学习，获得了较大突破。利用学习的潜在空间算术操作，实现了对语音的音素内容或说话人身份的无监督修改，无需平行监控数据。

Abstract

An ability to model a generative process and learn a latent representation for speech in an unsupervised fashion will be crucial to process vast quantities of unlabelled speech data. Recently, deep probabilistic generative models such as Variational Autoencoders (VAEs) have achieved tremendous success in modeling natural images. In this paper, we apply a con

unsupervised learning generative models speech recognition vae latent space

发现论文，激发创造

变分自编码器用于学习语音情感的潜在表示：初步研究

该研究提出对于语音情感识别任务，在深度生成模型 VAE 的启发下，使用 VAEs 学习语音信号的潜在表征，并使用这种表征来分类情感，证明通过 VAEs 学习到的特征可产生情感分类的最佳结果。

Dec, 2017

端到端语音合成中学习风格控制与转移的潜在表示

本文介绍了利用变分自编码器（VAE）来实现语音合成模型的端到端学习，以无监督的方式学习发音风格的潜在表示。通过 VAE 学习到的风格表示具有解缠、缩放和组合等良好的特性，使得风格控制变得容易。通过先通过 VAE 的识别网络推断出风格表示，然后将其馈入 TTS 网络来引导语音合成中的风格，可以在这个框架中实现风格转移。为了避免在训练过程中 KL 散度崩溃，采用了多种技术。最后，所提出的模型在风格控制上表现良好，并在风格转移的 ABX 偏好测试中优于全局风格令牌（GST）模型。

Dec, 2018

使用 WaveNet 自编码器进行无监督的语音表示学习

本研究旨在通过自编码神经网络从语音波形中提取有意义的潜在表示，并比较三个变体：简单维度约束、高斯变分自编码器和离散量化矢量自编码器，成果表明此方法在 ZeroSpeech 2017 任务中获得了可比拟的表现。

Jan, 2019

一种用于语音增强的循环变分自编码器

本文提出一种基于递归变分自编码器（RVAE）的语音增强的生成方法，通过与非负矩阵分解噪声模型相结合，仅使用干净的语音信号训练深度生成语音模型，并在测试时微调 RVAE 的编码器以近似给出噪声语音观测下的潜在变量的分布。与基于前馈完全连接体系结构的先前方法相比，所提出的递归深度生成语音模型引入了潜在变量上的后期时间动态，其在语音增强结果方面表现更好。

Oct, 2019

变分自编码器中学习潜在子空间

本文提出了一种基于变分自编码器的生成模型，使用互信息最小化学习与每个标签相关的低维潜空间，并展示了其在特征操作上的实用性。

Dec, 2018

利用 VQ-VAE 从口腔和声学特征进行自监督语音单元发现

使用关节建模和深度学习研究了如何在自我监督情况下使用关节信息发现语音单元，并在实验中发现联合使用关节和语音学模态可以更准确地表示这些语音学维度。

Jun, 2022

使用离散隐变量神经网络进行语音合成的无监督声学单元发现

本文介绍了使用离散潜变量神经网络对无标签语音进行离散子单词建模，使用自编码器架构进行中间离散化，在训练中，根据模型的特点对语音单元重新建模，以甄别可离散化的语音特征。在测试中，离线甄别采用未知说话者的语音，通过已知目标说话者的条件下的解码来获得重构的滤波器组。最后，使用神经声码器将输出进行合成，比较分别使用分类变分自编码器（CatVAEs）, 矢量量化 VAEs（VQ-VAEs）和直通估计在两种语言上的不同压缩水平，并发现该模型可以在离散表示方面产生竞争性的合成质量

Apr, 2019

学习鲁棒的潜在特征表示用于可控语音合成

提出了一种 RTI-VAE 方法，使用修改过的 Transformer 架构和信息减少技术来学习可控制的语音数据的潜在变量，从而降低说话者属性聚类的重叠率，相比于 LSTM-VAE 和 vanilla Transformer-VAE，降低了至少 30％和至少 7％的重叠率。

May, 2021

文本生成的隐式深度潜变量模型

本文提出了一种基于采样的变分分布表示方法，用于自然语言生成中 deep latent variable models，并通过最大化互信息的正则化来解决 posterior collapse 问题，进一步发展了 VAE，并在多个文本生成场景中证明了其有效性和通用性。

Aug, 2019

神经离散表征学习

本文提出了一种简单而强大的生成模型，学习离散表示，可以生成高质量的图像、视频和语音，同时进行说话人转换和音素无监督学习。

Nov, 2017