Jun, 2019

非平行序列到序列语音转换系统中的语言和说话人分离表征

TL;DR本文提出了一种使用非并行训练数据的序列到序列(seq2seq)语音转换方法,该方法使用编码器 - 解码器神经网络框架构建模型,从声学特征中提取解交叉的语言和说话者表示,并通过保留源话语的语言表示,将说话者表示替换为目标音频的表示来实现语音转换。实验结果表明,该方法在语音转换挑战 2018 中得到了比最佳非并行语音转换方法更高的相似度和自然程度。