May, 2019

使用 LPCNet 的高质量轻量化和可适应的语音合成技术

TL;DR本研究提出了一种轻量级的适应性神经 TTS 系统,采用三个单独的神经网络块来实现韵律预测、声学特征预测和线性预测编码神经声码器,性能接近自然语音合成,同时在标准 CPU 上实时性能比真实速度快 3 倍,系统的模块化设置使得可适应新的语音,只需要少量的数据,在大量实验中展示了系统的高质量和适应性,提高了 0.12 的质量差距和 3% 的相似性差距,可适应未见的声音和性别的合成。