WGANSing：基于 Wasserstein-GAN 的多声部唱歌合成器

Mar, 2019

WGANSing：基于 Wasserstein-GAN 的多声部唱歌合成器

WGANSing: A Multi-Voice Singing Voice Synthesizer Based on the Wasserstein-GAN

Pritish Chandna, Merlijn Blaauw, Jordi Bonada, Emilia Gomez

TL;DR本研究提出了一种基于深度神经网络的歌声合成器，使用 Wasserstein-GAN 算法进行优化，通过声学建模的声码器参数，实现对歌唱声音中音高和音色的分离，采用分块方法建模输入块内的时间依赖关系，并使用重叠添加程序将连续块拼接在一起，该模型的绩效达到了与最先进技术相竞争的水平。

Abstract

We present a deep neural network based singing voice synthesizer, inspired by the Deep Convolutions Generative Adversarial Networks (DCGAN) architecture and optimized using the →

deep neural network singing voice synthesizer wasserstein-gan acoustic modeling temporal dependencies

发现论文，激发创造

SingGAN：用于高保真唱歌声音生成的生成对抗网络

提出了一种名为 SingGAN 的生成对抗网络，用于高保真度歌声合成，该网络通过提出源激发、全局和局部判别器、辅助频谱损失和子带特征匹配惩罚损失等方法，解决了通过文本合成的神经声码器不能直接应用于合成歌声的问题，该网络不仅具有接近现实的音质效果，而且在单个 NVIDIA 2080Ti GPU 上还能实现 50 倍于实时的速度。

Oct, 2021

使用 WaveNet 声码器的多说话者文本转语音合成系统的 Wasserstein GAN 和基于波形损失的训练方法

提议在语音合成中使用包含条件生成式对抗网络或其变种 Wasserstein GAN with gradient penalty (WGAN-GP) 的框架，并将生成的伪语音作为条件参数用于另一个准确预测参数的声学模型中，实验结果表明，使用具有后向传播离散混合逻辑损失的 WGAN-GP 框架所训练的声学模型，评估得分最高，同时具有最佳的质量和说话人相似度。

Jul, 2018

对抗训练的多歌手序列到序列歌唱合成器

本文提出了一种高质量的歌唱合成器，它能够在有限的可用录音基础上模拟出一种声音，采用序列到序列的歌唱模型，并设计了一个多歌手框架来利用不同歌手的现有歌唱数据，以减轻歌唱评分不平衡的问题。此外，为了使编码器输出与歌手无关，我们加入了一个对抗性任务来保证模型的平衡性及多随机窗口鉴别器（MRWDs）以使网络成为 GAN。客观和主观的评估表明，所提出的合成器比基准测试能够产生更高质量的歌唱声音（MOS 值分别为 4.12 和 3.53）。特别是高音元音的表达得到了显著改善。

Jun, 2020

神经参数化唱歌合成器

利用基于 WaveNet 架构的新型合成模型，对参数声码器产生的特征进行建模，并使用混合密度输出，实现对每个帧的预测，避免了过度拟合，在预测错误的情况下进行自回归生成算法的正则化，成功将和声、非周期性和有声 / 无声组件预测在一起，比现有的参数化统计方法和拼接方法更为有效。

Apr, 2017

使用非并行训练数据的 VAW-GAN 歌声转化

本论文提出了一种基于 VAW-GAN 的歌声转换框架，通过训练一个编码器来解开歌手身份和演唱语调（F0 曲线），通过对歌手身份和 F0 进行条件生成，解码器能够生成具有未见目标歌手身份的输出谱特征，并提高了 F0 渲染的性能。

Aug, 2020

基于生成对抗网络的歌声分离技术 SVSGAN

本文利用生成对抗网络（GAN）和时频掩模函数提出了一种新的人声分离框架，通过在对抗训练过程中进行混合谱分布和清洁谱分布之间的近似来进行分离，利用监督学习初始化参数并利用无监督学习进行优化，实验结果表明该框架可以提高音频分离效果。

Oct, 2017

基于卷积神经网络的歌声合成

本文提出了一种基于卷积神经网络的歌声合成方法，通过建立对唱歌音符特征序列和声学特征序列之间关系的卷积神经网络模型，生成长时序的声学特征序列以去除参数生成算法，主观听感测试结果表明该方法能够产生自然流畅的歌声。

Apr, 2019

无监督跨域歌声转换

本文提出了一种无需手动监督的端对端 wav 到 wav 生成模型，用于实现任意身份的歌声转换，该模型利用音响模型和提取的旋律特征来驱动基于波形的生成器，经实验证明，在音频质量方面表现显著优于基线方法。

Aug, 2020

BigVGAN: 大规模训练的通用神经声码器

该研究使用周期性激活函数和柿子化表示来改进基于生成对抗网络的声码器，提高音频合成质量。BigVGAN 是一个通用的声码器，可以应用于各种分布情况，包括未见过的语音，语言和录制环境。

Jun, 2022

VocGAN：一种具有分层嵌套对抗网络的高保真实时声码器

本研究提出了一种名为 VocGAN 的高保真实时神经声码器，其在几乎与 MelGAN 相同的速度下，显著提高了输出波形的质量和一致性，利用多尺度波形生成器和分层嵌套鉴别器以平衡地学习多个水平的声学属性，同时应用联合条件和无条件目标，在多个评估指标中显示出显著的改进

Jul, 2020