无监督语音增强的后验采样算法与递归变分自动编码器
本文提出一种基于递归变分自编码器(RVAE)的语音增强的生成方法, 通过与非负矩阵分解噪声模型相结合,仅使用干净的语音信号训练深度生成语音模型, 并在测试时微调 RVAE 的编码器以近似给出噪声语音观测下的潜在变量的分布。与基于前馈完全连接体系结构的先前方法相比,所提出的递归深度生成语音模型引入了潜在变量上的后期时间动态,其在语音增强结果方面表现更好。
Oct, 2019
该论文提出了一种模型 —— 变分循环自编码器(VRAE),结合了 RNN 和 SGVB 的优点,可用于针对大规模时间序列数据进行高效的无监督学习,将时间序列数据映射为潜在向量表示。该模型具有生成性,因此可以从潜空间的样本生成数据。此外,该模型能够利用无标记数据,通过初始化权重和网络状态,促进 RNN 的监督训练。
Dec, 2014
该研究探讨了使用无香精变换来改进变分自编码器生成模型的表现,使用更具信息量和低方差的后验表示来确保更高质量的重建,并使用 Wasserstein 分布度量来替换 KL 散度以允许更快的后验分布,最后得到了一种竞争力强的确定性采样 VAE,可在脚手架分数上提高性能,训练方差较低。
Jun, 2023
学习变分自动编码器(VAEs)的关键任务是训练生成模型和推理模型,本文提出了一种基于 MAPA 的推理方法,可以高效地估计真实模型的后验分布。初步结果表明,该方法在低维合成数据上能够更好地进行密度估计,并提供了将该方法扩展到高维数据的路线图。
Mar, 2024
本文介绍了一种实时音频变分自动编码器 (RAVE),允许快速且高质量的音频波形合成,采用多频段分解处理原始波形。通过后训练分析潜在空间,实现重构保真度与表示紧凑性之间的直接控制。例如对于音质转换和信号压缩等应用,该模型相比于现有模型表现更优。
Nov, 2021
本文探讨了利用深度神经网络对概率模型进行参数化的变分推断方法在语言建模上出现的后验坍塌问题,介绍了多种解决方案和模型扩展,并通过贝叶斯优化系统性比较了这些方法的效果和差异,同时提供了一些实践建议。
Apr, 2019
本文提出了一种使用正则化方法处理 Variational Recurrent Autoencoder 中 latent variables 过于随意造成的语言模型崩溃问题,将额外约束限制在 VRAE 的 latent variables 的后验概率分布中,使得模型能够准确地控制 KL 项和重构项之间的权衡,并学习到更加密集和有意义的 latent representations。实验表明,该方法优于多个强力 baseline,且不需要使用其他 KL 退火策略,能够学到可解释的 latent variables 并生成多样化和有意义的句子。
May, 2019
提出了一种高效的脉冲变分自动编码器(ESVAE),它构建了一个可解释的潜在空间分布,并设计了一种可重参数化的脉冲采样方法,实验证明该方法在重建和生成图像质量上优于以前的 SNN VAE 方法。
Oct, 2023
提出一种基于正则化的确定性编码器和解码器的生成模型框架,替换 VAEs 中的随机性来达到优化潜在空间的目的,并通过引入后验密度估计步骤来生成具有相当或更好质量的样本。
Mar, 2019
本文介绍了一种新的正则化方法 mutual posterior-divergence regularization,用于控制潜空间的几何结构,从而实现有意义的表征学习,并在三个图像基准数据集上取得了良好的表现。
Jan, 2019