统计参数语音合成的神经源 - 滤波波形模型

Apr, 2019

统计参数语音合成的神经源 - 滤波波形模型

Neural source-filter waveform models for statistical parametric speech synthesis

Xin Wang, Shinji Takaki, Junichi Yamagishi

TL;DR提出了一种不需要自回归或逆自回归的神经源 - 滤波器 (NSF) 波形建模框架，该框架比 WaveNet 等传统自回归模型具有更快的波形生成速度，并且所生成的合成语音质量至少与 WaveNet 相当。

Abstract

neural waveform models such as wavenet have demonstrated better performance than conventional vocoders for statistical parametric speech synthesi

neural waveform models wavenet speech synthesis source-filter waveform modeling nsf models

发现论文，激发创造

基于神经源 - 滤波器的波形模型用于统计参数语音合成

该研究提出了一种非自回归神经源滤波波形模型，它可以直接使用基于光谱的训练准则和随机梯度下降方法进行训练，并生成至少比 AR WaveNet 快 100 倍的波形，生成的合成语音质量与 AR WaveNet 的语音生成质量接近，其中正弦波激励信号和基于光谱的训练准则对该模型的表现均至关重要。

Oct, 2018

基于神经网络的语音合成方法中最新的波形产生和声学模型方法的比较

本文研究语音合成技术，并采用先进的机器学习方法克服了振幅频谱和声学模型过度平滑等局限性，在大规模众包评估中，发现生成性对抗网络和自回归模型表现优于普通循环神经网络。同时，使用相同的自回归声学模型进行评估，Wavenet 声码器优于经典的源 - 滤波器型声码器。尤其是，组合自回归声学模型和 Wavenet 声码器生成的语音波形与声学单元表现出类似的语音质量得分。

Apr, 2018

面向声带激励的无需说话人信息的原始波形模型

本文提出一种基于 WaveNet 的声码器 GlotNet，通过利用源 - 滤波器模型来更有效地训练具有有限资源的说话人独立音形生成器，实现跨多个说话人共享波形发生器模型，而且多测试显示该模型表现优于直接的 WaveNet 声码器。

Apr, 2018

神经参数化唱歌合成器

利用基于 WaveNet 架构的新型合成模型，对参数声码器产生的特征进行建模，并使用混合密度输出，实现对每个帧的预测，避免了过度拟合，在预测错误的情况下进行自回归生成算法的正则化，成功将和声、非周期性和有声 / 无声组件预测在一起，比现有的参数化统计方法和拼接方法更为有效。

Apr, 2017

FloWaveNet：用于原始音频的生成流

本文提出了 FloWaveNet，一种基于可逆流的生成模型，使用单阶段训练程序和单个最大似然损失函数，无需附加的辅助项，能实时高效地输出与先前两阶段并行模型相媲美的清晰音频

Nov, 2018

一种神经编码器，采用分层生成模式的幅度与相位光谱，用于统计参数语音合成

本研究提出了一种名为 HiNet 的神经声码器，其通过分层预测振幅和相位谱从声学特征重建语音波形，包含振幅谱预测器（ASP）、相位谱预测器（PSP）以及基于神经源 - 滤波器波形生成器和相位提取器的 PSP。此外，我们还将生成对抗网络引入到 ASP 和 PSP 中。最终，ASP 和 PSP 的输出通过短时傅里叶合成结合生成 1s 语音波形的时间可大幅减少。

Jun, 2019

非自回归神经文本转语音

本文提出 ParaNet，一种非自回归 seq2seq 模型，用于将文本转换为频谱图，并通过各种平行神经音色器进行了测试，其中包括一种基于 VAE 的方法，用于从头开始训练反自回归流（IAF）平行音色器。

May, 2019

WaveNet：原始音频的生成模型

该研究介绍了 WaveNet，一种用于生成原始音频波形的深度神经网络，该模型是完全概率的和自回归的，应用于文本到语音，产生了最先进的性能，用于模拟音乐，生成新颖且高度逼真的音乐片段，并可作为一种判别模型返回有希望的语素识别结果。

Sep, 2016

ExcitNet Vocoder: 一种用于参数语音合成系统的神经兴奋模型

本文提出了一种基于 WaveNet 的神经激励模型 (ExcitNet)，用于统计参数语音合成系统，可提高语音合成的感知质量并提高建模效率。

Nov, 2018

神经自回归流

本篇研究提出了使用单调神经网络替代对条件仿射单变量转换的方法进行流式变换，称之为神经自回归流（NAF）。实验结果显示，NAF 在密度估计任务上表现出色，并在 MNIST 二值化数据集上的变分自编码器训练中表现出优于 IAF 的性能。

Apr, 2018