Jun, 2019

一种神经编码器,采用分层生成模式的幅度与相位光谱,用于统计参数语音合成

TL;DR本研究提出了一种名为 HiNet 的神经声码器,其通过分层预测振幅和相位谱从声学特征重建语音波形,包含振幅谱预测器(ASP)、相位谱预测器(PSP)以及基于神经源 - 滤波器波形生成器和相位提取器的 PSP。此外,我们还将生成对抗网络引入到 ASP 和 PSP 中。最终,ASP 和 PSP 的输出通过短时傅里叶合成结合生成 1s 语音波形的时间可大幅减少。