基于神经源 - 滤波器的波形模型用于统计参数语音合成

Oct, 2018

基于神经源 - 滤波器的波形模型用于统计参数语音合成

Neural source-filter-based waveform model for statistical parametric speech synthesis

Xin Wang, Shinji Takaki, Junichi Yamagishi

TL;DR该研究提出了一种非自回归神经源滤波波形模型，它可以直接使用基于光谱的训练准则和随机梯度下降方法进行训练，并生成至少比 AR WaveNet 快 100 倍的波形，生成的合成语音质量与 AR WaveNet 的语音生成质量接近，其中正弦波激励信号和基于光谱的训练准则对该模型的表现均至关重要。

Abstract

neural waveform models such as the WaveNet are used in many recent text-to-speech systems, but the original WaveNet is quite slow in waveform generation because of its autoregressive (AR) structure. Although fast

neural waveform models text-to-speech systems non-ar models neural source-filter waveform model spectrum-based training criteria

发现论文，激发创造

统计参数语音合成的神经源 - 滤波波形模型

提出了一种不需要自回归或逆自回归的神经源 - 滤波器 (NSF) 波形建模框架，该框架比 WaveNet 等传统自回归模型具有更快的波形生成速度，并且所生成的合成语音质量至少与 WaveNet 相当。

Apr, 2019

基于神经网络的语音合成方法中最新的波形产生和声学模型方法的比较

本文研究语音合成技术，并采用先进的机器学习方法克服了振幅频谱和声学模型过度平滑等局限性，在大规模众包评估中，发现生成性对抗网络和自回归模型表现优于普通循环神经网络。同时，使用相同的自回归声学模型进行评估，Wavenet 声码器优于经典的源 - 滤波器型声码器。尤其是，组合自回归声学模型和 Wavenet 声码器生成的语音波形与声学单元表现出类似的语音质量得分。

Apr, 2018

面向声带激励的无需说话人信息的原始波形模型

本文提出一种基于 WaveNet 的声码器 GlotNet，通过利用源 - 滤波器模型来更有效地训练具有有限资源的说话人独立音形生成器，实现跨多个说话人共享波形发生器模型，而且多测试显示该模型表现优于直接的 WaveNet 声码器。

Apr, 2018

神经参数化唱歌合成器

利用基于 WaveNet 架构的新型合成模型，对参数声码器产生的特征进行建模，并使用混合密度输出，实现对每个帧的预测，避免了过度拟合，在预测错误的情况下进行自回归生成算法的正则化，成功将和声、非周期性和有声 / 无声组件预测在一起，比现有的参数化统计方法和拼接方法更为有效。

Apr, 2017

WaveNet：原始音频的生成模型

该研究介绍了 WaveNet，一种用于生成原始音频波形的深度神经网络，该模型是完全概率的和自回归的，应用于文本到语音，产生了最先进的性能，用于模拟音乐，生成新颖且高度逼真的音乐片段，并可作为一种判别模型返回有希望的语素识别结果。

Sep, 2016

Wave-Tacotron: 基于端到端的文本到语音合成的光谱图自由方法

本研究描述了一种序列到序列的神经网络，可以直接将文本输入转化为语音波形，具备较快的语音生成速度，而且不需要使用中间特征来实现。该模型使用自回归解码器循环与标准化流相结合，对输出波形进行建模，并能够处理长期依赖关系。实验证明，所提出的模型的语音生成质量接近最新的神经网络 TTS 系统，并具有明显的加速优势。

Nov, 2020

ExcitNet Vocoder: 一种用于参数语音合成系统的神经兴奋模型

本文提出了一种基于 WaveNet 的神经激励模型 (ExcitNet)，用于统计参数语音合成系统，可提高语音合成的感知质量并提高建模效率。

Nov, 2018

语音去噪的 Wavenet

该研究提出了一种基于非因果的扩张卷积和预测目标场而不是单个目标样本的、采用监督学习方式最小化回归损失的判别式模型适应方法，旨在进行语音去噪处理，比传统幅度谱法的维纳滤波法具有更好的计算性能和感知评估效果。

Jun, 2017

非自回归神经文本转语音

本文提出 ParaNet，一种非自回归 seq2seq 模型，用于将文本转换为频谱图，并通过各种平行神经音色器进行了测试，其中包括一种基于 VAE 的方法，用于从头开始训练反自回归流（IAF）平行音色器。

May, 2019

使用 WaveNet 声码器的多说话者文本转语音合成系统的 Wasserstein GAN 和基于波形损失的训练方法

提议在语音合成中使用包含条件生成式对抗网络或其变种 Wasserstein GAN with gradient penalty (WGAN-GP) 的框架，并将生成的伪语音作为条件参数用于另一个准确预测参数的声学模型中，实验结果表明，使用具有后向传播离散混合逻辑损失的 WGAN-GP 框架所训练的声学模型，评估得分最高，同时具有最佳的质量和说话人相似度。

Jul, 2018