RAVE: 一种快速高质量神经音频合成的变分自编码器

Nov, 2021

RAVE: 一种快速高质量神经音频合成的变分自编码器

RAVE: A variational autoencoder for fast and high-quality neural audio synthesis

Antoine Caillon, Philippe Esling

TL;DR本文介绍了一种实时音频变分自动编码器 (RAVE)，允许快速且高质量的音频波形合成，采用多频段分解处理原始波形。通过后训练分析潜在空间，实现重构保真度与表示紧凑性之间的直接控制。例如对于音质转换和信号压缩等应用，该模型相比于现有模型表现更优。

Abstract

deep generative models applied to audio have improved by a large margin the state-of-the-art in many speech and music related tasks. However, as raw waveform modelling remains an inherently difficult task,

deep generative models audio variational autoencoders realtime multi-band decomposition

发现论文，激发创造

一种用于语音增强的循环变分自编码器

本文提出一种基于递归变分自编码器（RVAE）的语音增强的生成方法，通过与非负矩阵分解噪声模型相结合，仅使用干净的语音信号训练深度生成语音模型，并在测试时微调 RVAE 的编码器以近似给出噪声语音观测下的潜在变量的分布。与基于前馈完全连接体系结构的先前方法相比，所提出的递归深度生成语音模型引入了潜在变量上的后期时间动态，其在语音增强结果方面表现更好。

Oct, 2019

变分循环自编码器

该论文提出了一种模型 —— 变分循环自编码器（VRAE），结合了 RNN 和 SGVB 的优点，可用于针对大规模时间序列数据进行高效的无监督学习，将时间序列数据映射为潜在向量表示。该模型具有生成性，因此可以从潜空间的样本生成数据。此外，该模型能够利用无标记数据，通过初始化权重和网络状态，促进 RNN 的监督训练。

Dec, 2014

动态变分自编码器：综述

本文对可变自编码器 (VAE) 拓展至处理序列数据的方法进行了综述，提出并讨论了动态变分自编码器 (DVAEs) 这一类模型，详细介绍了七种 DVAE 模型，并通过语音分析 - 重构任务的实验基准进行了验证，最后探讨了 DVAE 模型的重要问题和未来的研究方向。

Aug, 2020

LVNS-RAVE：基于 RAVE 和潜向量新奇性搜索的多样化音频生成

由于进化算法需要复杂的设计且生成的声音缺乏真实感，而生成式深度学习模型常常只是复制数据集缺乏创造力，本文提出了 LVNS-RAVE 方法，将进化算法与生成式深度学习相结合以产生逼真和新颖的声音样本。实验结果表明，该方法能够成功生成多样化和新颖的音频样本，并可以通过变异参数轻松控制生成过程的特性。该算法对声音艺术家和音乐家来说是一种创造性的工具。

Apr, 2024

重新加权自编码变分贝叶斯用于增强采样（RAVE）

提出了 RAEBV 方法，使用自编码变分贝叶斯方法来提高分子模拟的采样效率，并在计算自由能与发现关键特征空间方面具有显著优势。

Feb, 2018

学习鲁棒的潜在特征表示用于可控语音合成

提出了一种 RTI-VAE 方法，使用修改过的 Transformer 架构和信息减少技术来学习可控制的语音数据的潜在变量，从而降低说话者属性聚类的重叠率，相比于 LSTM-VAE 和 vanilla Transformer-VAE，降低了至少 30％和至少 7％的重叠率。

May, 2021

使用深度学习架构进行潜在音频空间探索的声音设计策略

本研究探讨了 Variational Autoencoders（VAEs）在将原始音频数据中生成潜在音频空间时的应用，提出了三种探索潜在音频空间和音色的策略以应用于声音设计，在为声音和音乐实践中利用潜在音频空间的艺术方法和策略方面开展了初步探索。

May, 2023

RAQ-VAE：自适应速率矢量量化变分自编码器

Rate-Adaptive VQ-VAE improves the adaptability and performance of Vector Quantized Variational AutoEncoders with novel codebook representation methods, achieving effective reconstruction performance across multiple rates.

May, 2024

通过变分自编码器对表情进行建模的表达性语音合成

本文提出一种将自回归语音合成模型 VoiceLoop 与变分自编码器 VAE 相结合的方法，通过在语音生成过程中显式建模全局特征，控制生成语音的表达方式从而提高语音合成的表现力。

Apr, 2018

TimeVAE: 多元时间序列生成的变分自编码器

本文提出了一种基于变分自动编码器的新型体系结构，可用于进行时序数据的合成生成，具有可解释性，能够编码领域知识，训练时间较短。实验表明，该方法在数据相似度和预测性方面均表现优异，依然能够准确地呈现原始数据的时态属性，并且对于下一步预测具有显著的改善效果。最后，该模型可以将特定领域的时间模式融入到生成模型中，提供可解释性的输出。

Nov, 2021