一种神经编码器，采用分层生成模式的幅度与相位光谱，用于统计参数语音合成

Jun, 2019

一种神经编码器，采用分层生成模式的幅度与相位光谱，用于统计参数语音合成

A Neural Vocoder with Hierarchical Generation of Amplitude and Phase Spectra for Statistical Parametric Speech Synthesis

PDF

Yang Ai, Zhen-Hua Ling

TL;DR本研究提出了一种名为 HiNet 的神经声码器，其通过分层预测振幅和相位谱从声学特征重建语音波形，包含振幅谱预测器（ASP）、相位谱预测器（PSP）以及基于神经源 - 滤波器波形生成器和相位提取器的 PSP。此外，我们还将生成对抗网络引入到 ASP 和 PSP 中。最终，ASP 和 PSP 的输出通过短时傅里叶合成结合生成 1s 语音波形的时间可大幅减少。

Abstract

This paper presents a neural vocoder named HiNet which reconstructs speech waveforms from acoustic features by predicting amplitude and phase spectra hierarchically. Different from existing neural vocoders such as WaveNet, SampleRNN and WaveRNN which directly generate waveform samples

neural vocoder amplitude spectrum predictor phase spectrum predictor generative adversarial networks short-time fourier synthesis

发现论文，激发创造

神经参数化唱歌合成器

利用基于 WaveNet 架构的新型合成模型，对参数声码器产生的特征进行建模，并使用混合密度输出，实现对每个帧的预测，避免了过度拟合，在预测错误的情况下进行自回归生成算法的正则化，成功将和声、非周期性和有声 / 无声组件预测在一起，比现有的参数化统计方法和拼接方法更为有效。

Apr, 2017

统计参数语音合成的神经源 - 滤波波形模型

提出了一种不需要自回归或逆自回归的神经源 - 滤波器 (NSF) 波形建模框架，该框架比 WaveNet 等传统自回归模型具有更快的波形生成速度，并且所生成的合成语音质量至少与 WaveNet 相当。

Apr, 2019

基于神经网络的语音合成方法中最新的波形产生和声学模型方法的比较

本文研究语音合成技术，并采用先进的机器学习方法克服了振幅频谱和声学模型过度平滑等局限性，在大规模众包评估中，发现生成性对抗网络和自回归模型表现优于普通循环神经网络。同时，使用相同的自回归声学模型进行评估，Wavenet 声码器优于经典的源 - 滤波器型声码器。尤其是，组合自回归声学模型和 Wavenet 声码器生成的语音波形与声学单元表现出类似的语音质量得分。

Apr, 2018

NeuralDPS: 基于多频激励的神经确定性加随机模型用于噪声可控波形生成

本文提出了一种名为 NeuralDPS 的新型神经语音编码器，通过使用多带激励策略，控制噪声组分，调整语音的信噪比和扩大频带，该编码器可以在保持高语音质量的同时提高合成效率和降低噪声，达到与 WaveNet 相似的性能且至少比 WaveNet 合成速度快 280 倍。

Mar, 2022

UnivNet: 带多分辨率频谱鉴别器的神经声码器，用于高保真波形生成

该研究提出了一种名为 UnivNet 的神经声码器，利用全频带谱特征作为输入，通过添加多分辨率谱图鉴别器来解决非锐利音频信号生成的问题，并在大量演讲者信息数据集上取得最佳客观和主观结果。

Jun, 2021

基于神经源 - 滤波器的波形模型用于统计参数语音合成

该研究提出了一种非自回归神经源滤波波形模型，它可以直接使用基于光谱的训练准则和随机梯度下降方法进行训练，并生成至少比 AR WaveNet 快 100 倍的波形，生成的合成语音质量与 AR WaveNet 的语音生成质量接近，其中正弦波激励信号和基于光谱的训练准则对该模型的表现均至关重要。

Oct, 2018

HiFTNet：具备谐波加噪滤波器和逆短时傅里叶变换的高速高质量神经声码器

本文介绍了一种名为 HiFTNet 的扩展模型，通过在时频域中使用基频（F0）的正弦源来快速推理，结合了反短时傅里叶变换（iSTFT）和谐波加噪声源滤波器，实现了高效、高质量的神经音频编码，为实时高质量语音合成应用开辟了新的前景。

Sep, 2023

使用 WaveNet 自编码器进行音乐音符的神经音频合成

本研究提出了一种基于 WaveNet 风格自编码器的新型音频模型，进一步介绍了一个规模较大质量较高的音乐数据集 NSynth。使用 NSynth 数据集，我们证明 WaveNet 自编码器比使用频谱自编码器基线的性能有显著提高，同时演示了该模型学习嵌入的能力，实现了在音色上的差值并创造了新类型的逼真和有表现力的声音。

Apr, 2017

ExcitNet Vocoder: 一种用于参数语音合成系统的神经兴奋模型

本文提出了一种基于 WaveNet 的神经激励模型 (ExcitNet)，用于统计参数语音合成系统，可提高语音合成的感知质量并提高建模效率。

Nov, 2018

使用 WaveNet 声码器的多说话者文本转语音合成系统的 Wasserstein GAN 和基于波形损失的训练方法

提议在语音合成中使用包含条件生成式对抗网络或其变种 Wasserstein GAN with gradient penalty (WGAN-GP) 的框架，并将生成的伪语音作为条件参数用于另一个准确预测参数的声学模型中，实验结果表明，使用具有后向传播离散混合逻辑损失的 WGAN-GP 框架所训练的声学模型，评估得分最高，同时具有最佳的质量和说话人相似度。

Jul, 2018