Oct, 2018

语音转换的序列到序列声学建模

TL;DR本文提出了一种名为 SCENT 的神经网络,用于声音转换中的声学建模。该方法使用注意力机制在训练阶段隐式地对齐源和目标讲话人的特征序列,实现了适当的长度转换,并在转换阶段使用统一的声学模型同时转换源语音的声学特征和持续时间。实验结果表明,该方法在客观和主观性能方面都比传统方法(如 GMM 和 DNN)表现更好,并且优于先前在 Voice Conversion Challenge 2018 中获得最高排名的方法。