神经参数化唱歌合成器
本研究提出了一种基于 WaveNet 风格自编码器的新型音频模型,进一步介绍了一个规模较大质量较高的音乐数据集 NSynth。使用 NSynth 数据集,我们证明 WaveNet 自编码器比使用频谱自编码器基线的性能有显著提高,同时演示了该模型学习嵌入的能力,实现了在音色上的差值并创造了新类型的逼真和有表现力的声音。
Apr, 2017
本研究提出了一种基于深度学习的轻量级神经音频合成器 SING,其可以通过单一解码器从近 1000 种乐器中生成音符,并且通过新的损失函数将生成的和目标波形的对数谱距离最小化,提高了音质的感知品质。与基于 WaveNet 的最新自动编码器相比,在训练和推理方面分别快 32 倍和快 2500 倍。
Oct, 2018
本文研究语音合成技术,并采用先进的机器学习方法克服了振幅频谱和声学模型过度平滑等局限性,在大规模众包评估中,发现生成性对抗网络和自回归模型表现优于普通循环神经网络。同时,使用相同的自回归声学模型进行评估,Wavenet 声码器优于经典的源 - 滤波器型声码器。尤其是,组合自回归声学模型和 Wavenet 声码器生成的语音波形与声学单元表现出类似的语音质量得分。
Apr, 2018
该研究介绍了 WaveNet,一种用于生成原始音频波形的深度神经网络,该模型是完全概率的和自回归的,应用于文本到语音,产生了最先进的性能,用于模拟音乐,生成新颖且高度逼真的音乐片段,并可作为一种判别模型返回有希望的语素识别结果。
Sep, 2016
本研究提出了一种基于深度神经网络的歌声合成器,使用 Wasserstein-GAN 算法进行优化,通过声学建模的声码器参数,实现对歌唱声音中音高和音色的分离,采用分块方法建模输入块内的时间依赖关系,并使用重叠添加程序将连续块拼接在一起,该模型的绩效达到了与最先进技术相竞争的水平。
Mar, 2019
本文提出了使用自回归神经网络对歌声合成进行声学建模的方法,以更好地描述连续帧音频特征之间的依赖关系。实验结果表明,使用自回归模型的方法可以更有效地产生包含颤音的 F0 轮廓,并且可以比使用递归神经网络的传统方法实现更好的客观和主观性能。
Jun, 2019
该研究提出了一种非自回归神经源滤波波形模型,它可以直接使用基于光谱的训练准则和随机梯度下降方法进行训练,并生成至少比 AR WaveNet 快 100 倍的波形,生成的合成语音质量与 AR WaveNet 的语音生成质量接近,其中正弦波激励信号和基于光谱的训练准则对该模型的表现均至关重要。
Oct, 2018
本文提出了适应性讲话者神经声码器,用于参数文本到语音(TTS)系统,利用全局属性提取方法及目标讲话者特征优化获得了高质量可自适应的 TTS 语音合成。
Nov, 2018
本文提出了一种高质量的歌唱合成器,它能够在有限的可用录音基础上模拟出一种声音,采用序列到序列的歌唱模型,并设计了一个多歌手框架来利用不同歌手的现有歌唱数据,以减轻歌唱评分不平衡的问题。此外,为了使编码器输出与歌手无关,我们加入了一个对抗性任务来保证模型的平衡性及多随机窗口鉴别器(MRWDs)以使网络成为 GAN。客观和主观的评估表明,所提出的合成器比基准测试能够产生更高质量的歌唱声音(MOS 值分别为 4.12 和 3.53)。特别是高音元音的表达得到了显著改善。
Jun, 2020