RAVE: 一种快速高质量神经音频合成的变分自编码器
本文提出一种基于递归变分自编码器(RVAE)的语音增强的生成方法, 通过与非负矩阵分解噪声模型相结合,仅使用干净的语音信号训练深度生成语音模型, 并在测试时微调 RVAE 的编码器以近似给出噪声语音观测下的潜在变量的分布。与基于前馈完全连接体系结构的先前方法相比,所提出的递归深度生成语音模型引入了潜在变量上的后期时间动态,其在语音增强结果方面表现更好。
Oct, 2019
该论文提出了一种模型 —— 变分循环自编码器(VRAE),结合了 RNN 和 SGVB 的优点,可用于针对大规模时间序列数据进行高效的无监督学习,将时间序列数据映射为潜在向量表示。该模型具有生成性,因此可以从潜空间的样本生成数据。此外,该模型能够利用无标记数据,通过初始化权重和网络状态,促进 RNN 的监督训练。
Dec, 2014
本文对可变自编码器 (VAE) 拓展至处理序列数据的方法进行了综述,提出并讨论了动态变分自编码器 (DVAEs) 这一类模型,详细介绍了七种 DVAE 模型,并通过语音分析 - 重构任务的实验基准进行了验证,最后探讨了 DVAE 模型的重要问题和未来的研究方向。
Aug, 2020
由于进化算法需要复杂的设计且生成的声音缺乏真实感,而生成式深度学习模型常常只是复制数据集缺乏创造力,本文提出了 LVNS-RAVE 方法,将进化算法与生成式深度学习相结合以产生逼真和新颖的声音样本。实验结果表明,该方法能够成功生成多样化和新颖的音频样本,并可以通过变异参数轻松控制生成过程的特性。该算法对声音艺术家和音乐家来说是一种创造性的工具。
Apr, 2024
提出了一种 RTI-VAE 方法,使用修改过的 Transformer 架构和信息减少技术来学习可控制的语音数据的潜在变量,从而降低说话者属性聚类的重叠率,相比于 LSTM-VAE 和 vanilla Transformer-VAE,降低了至少 30%和至少 7%的重叠率。
May, 2021
本研究探讨了 Variational Autoencoders(VAEs)在将原始音频数据中生成潜在音频空间时的应用,提出了三种探索潜在音频空间和音色的策略以应用于声音设计,在为声音和音乐实践中利用潜在音频空间的艺术方法和策略方面开展了初步探索。
May, 2023
Rate-Adaptive VQ-VAE improves the adaptability and performance of Vector Quantized Variational AutoEncoders with novel codebook representation methods, achieving effective reconstruction performance across multiple rates.
May, 2024
本文提出一种将自回归语音合成模型 VoiceLoop 与变分自编码器 VAE 相结合的方法,通过在语音生成过程中显式建模全局特征,控制生成语音的表达方式从而提高语音合成的表现力。
Apr, 2018
本文提出了一种基于变分自动编码器的新型体系结构,可用于进行时序数据的合成生成,具有可解释性,能够编码领域知识,训练时间较短。实验表明,该方法在数据相似度和预测性方面均表现优异,依然能够准确地呈现原始数据的时态属性,并且对于下一步预测具有显著的改善效果。最后,该模型可以将特定领域的时间模式融入到生成模型中,提供可解释性的输出。
Nov, 2021