为语音生成与转换学习潜在表征
该研究提出对于语音情感识别任务,在深度生成模型 VAE 的启发下,使用 VAEs 学习语音信号的潜在表征,并使用这种表征来分类情感,证明通过 VAEs 学习到的特征可产生情感分类的最佳结果。
Dec, 2017
本文介绍了利用变分自编码器(VAE)来实现语音合成模型的端到端学习,以无监督的方式学习发音风格的潜在表示。通过 VAE 学习到的风格表示具有解缠、缩放和组合等良好的特性,使得风格控制变得容易。通过先通过 VAE 的识别网络推断出风格表示,然后将其馈入 TTS 网络来引导语音合成中的风格,可以在这个框架中实现风格转移。为了避免在训练过程中 KL 散度崩溃,采用了多种技术。最后,所提出的模型在风格控制上表现良好,并在风格转移的 ABX 偏好测试中优于全局风格令牌(GST)模型。
Dec, 2018
本研究旨在通过自编码神经网络从语音波形中提取有意义的潜在表示,并比较三个变体:简单维度约束、高斯变分自编码器和离散量化矢量自编码器,成果表明此方法在 ZeroSpeech 2017 任务中获得了可比拟的表现。
Jan, 2019
本文提出一种基于递归变分自编码器(RVAE)的语音增强的生成方法, 通过与非负矩阵分解噪声模型相结合,仅使用干净的语音信号训练深度生成语音模型, 并在测试时微调 RVAE 的编码器以近似给出噪声语音观测下的潜在变量的分布。与基于前馈完全连接体系结构的先前方法相比,所提出的递归深度生成语音模型引入了潜在变量上的后期时间动态,其在语音增强结果方面表现更好。
Oct, 2019
使用关节建模和深度学习研究了如何在自我监督情况下使用关节信息发现语音单元,并在实验中发现联合使用关节和语音学模态可以更准确地表示这些语音学维度。
Jun, 2022
本文介绍了使用离散潜变量神经网络对无标签语音进行离散子单词建模,使用自编码器架构进行中间离散化,在训练中,根据模型的特点对语音单元重新建模,以甄别可离散化的语音特征。在测试中,离线甄别采用未知说话者的语音,通过已知目标说话者的条件下的解码来获得重构的滤波器组。最后,使用神经声码器将输出进行合成,比较分别使用分类变分自编码器(CatVAEs), 矢量量化 VAEs(VQ-VAEs)和直通估计在两种语言上的不同压缩水平,并发现该模型可以在离散表示方面产生竞争性的合成质量
Apr, 2019
提出了一种 RTI-VAE 方法,使用修改过的 Transformer 架构和信息减少技术来学习可控制的语音数据的潜在变量,从而降低说话者属性聚类的重叠率,相比于 LSTM-VAE 和 vanilla Transformer-VAE,降低了至少 30%和至少 7%的重叠率。
May, 2021
本文提出了一种基于采样的变分分布表示方法,用于自然语言生成中 deep latent variable models,并通过最大化互信息的正则化来解决 posterior collapse 问题,进一步发展了 VAE,并在多个文本生成场景中证明了其有效性和通用性。
Aug, 2019