Apr, 2019

使用离散隐变量神经网络进行语音合成的无监督声学单元发现

TL;DR本文介绍了使用离散潜变量神经网络对无标签语音进行离散子单词建模,使用自编码器架构进行中间离散化,在训练中,根据模型的特点对语音单元重新建模,以甄别可离散化的语音特征。在测试中,离线甄别采用未知说话者的语音,通过已知目标说话者的条件下的解码来获得重构的滤波器组。最后,使用神经声码器将输出进行合成,比较分别使用分类变分自编码器(CatVAEs), 矢量量化 VAEs(VQ-VAEs)和直通估计在两种语言上的不同压缩水平,并发现该模型可以在离散表示方面产生竞争性的合成质量