神经参数化唱歌合成器

Apr, 2017

A Neural Parametric Singing Synthesizer

Merlijn Blaauw, Jordi Bonada

TL;DR利用基于 WaveNet 架构的新型合成模型，对参数声码器产生的特征进行建模，并使用混合密度输出，实现对每个帧的预测，避免了过度拟合，在预测错误的情况下进行自回归生成算法的正则化，成功将和声、非周期性和有声 / 无声组件预测在一起，比现有的参数化统计方法和拼接方法更为有效。

Abstract

We present a new model for singing synthesis based on a modified version of the wavenet architecture. Instead of modeling raw waveform, we model features produced by a →

singing synthesis wavenet architecture parametric vocoder mixture density outputs regularization

发现论文，激发创造

使用 WaveNet 自编码器进行音乐音符的神经音频合成

本研究提出了一种基于 WaveNet 风格自编码器的新型音频模型，进一步介绍了一个规模较大质量较高的音乐数据集 NSynth。使用 NSynth 数据集，我们证明 WaveNet 自编码器比使用频谱自编码器基线的性能有显著提高，同时演示了该模型学习嵌入的能力，实现了在音色上的差值并创造了新类型的逼真和有表现力的声音。

Apr, 2017

SING：符号到乐器神经生成器

本研究提出了一种基于深度学习的轻量级神经音频合成器 SING，其可以通过单一解码器从近 1000 种乐器中生成音符，并且通过新的损失函数将生成的和目标波形的对数谱距离最小化，提高了音质的感知品质。与基于 WaveNet 的最新自动编码器相比，在训练和推理方面分别快 32 倍和快 2500 倍。

Oct, 2018

基于神经网络的语音合成方法中最新的波形产生和声学模型方法的比较

本文研究语音合成技术，并采用先进的机器学习方法克服了振幅频谱和声学模型过度平滑等局限性，在大规模众包评估中，发现生成性对抗网络和自回归模型表现优于普通循环神经网络。同时，使用相同的自回归声学模型进行评估，Wavenet 声码器优于经典的源 - 滤波器型声码器。尤其是，组合自回归声学模型和 Wavenet 声码器生成的语音波形与声学单元表现出类似的语音质量得分。

Apr, 2018

WaveNet：原始音频的生成模型

该研究介绍了 WaveNet，一种用于生成原始音频波形的深度神经网络，该模型是完全概率的和自回归的，应用于文本到语音，产生了最先进的性能，用于模拟音乐，生成新颖且高度逼真的音乐片段，并可作为一种判别模型返回有希望的语素识别结果。

Sep, 2016

WGANSing：基于 Wasserstein-GAN 的多声部唱歌合成器

本研究提出了一种基于深度神经网络的歌声合成器，使用 Wasserstein-GAN 算法进行优化，通过声学建模的声码器参数，实现对歌唱声音中音高和音色的分离，采用分块方法建模输入块内的时间依赖关系，并使用重叠添加程序将连续块拼接在一起，该模型的绩效达到了与最先进技术相竞争的水平。

Mar, 2019

使用深度自回归神经网络进行歌声合成的声学建模

本文提出了使用自回归神经网络对歌声合成进行声学建模的方法，以更好地描述连续帧音频特征之间的依赖关系。实验结果表明，使用自回归模型的方法可以更有效地产生包含颤音的 F0 轮廓，并且可以比使用递归神经网络的传统方法实现更好的客观和主观性能。

Jun, 2019

基于神经源 - 滤波器的波形模型用于统计参数语音合成

该研究提出了一种非自回归神经源滤波波形模型，它可以直接使用基于光谱的训练准则和随机梯度下降方法进行训练，并生成至少比 AR WaveNet 快 100 倍的波形，生成的合成语音质量与 AR WaveNet 的语音生成质量接近，其中正弦波激励信号和基于光谱的训练准则对该模型的表现均至关重要。

Oct, 2018

灵活音色控制的神经音乐合成

本研究提出了一种基于神经网络的音乐合成模型，并使用具有灵活音色控制的嵌入学习来实现乐器的多样性和交互。

Nov, 2018

基于说话人自适应的神经声码器的参数化语音合成系统

本文提出了适应性讲话者神经声码器，用于参数文本到语音（TTS）系统，利用全局属性提取方法及目标讲话者特征优化获得了高质量可自适应的 TTS 语音合成。

Nov, 2018

对抗训练的多歌手序列到序列歌唱合成器

本文提出了一种高质量的歌唱合成器，它能够在有限的可用录音基础上模拟出一种声音，采用序列到序列的歌唱模型，并设计了一个多歌手框架来利用不同歌手的现有歌唱数据，以减轻歌唱评分不平衡的问题。此外，为了使编码器输出与歌手无关，我们加入了一个对抗性任务来保证模型的平衡性及多随机窗口鉴别器（MRWDs）以使网络成为 GAN。客观和主观的评估表明，所提出的合成器比基准测试能够产生更高质量的歌唱声音（MOS 值分别为 4.12 和 3.53）。特别是高音元音的表达得到了显著改善。

Jun, 2020