Oct, 2020

AISHELL-3: 多说话人普通话 TTS 语料库和基准线

TL;DR本论文介绍了 AISHELL-3 数据集,用于训练多扬声器普通话语音合成系统,同时介绍了一种基于 Tacotron-2 的多扬声器语音合成基线模型,该模型结合了说话人验证模型和相应的语音相似性损失作为反馈约束。该论文旨在利用所提供的语音数据集构建鲁棒的语音合成模型,并实现零 - shot 语音克隆。实验结果表明,该多说话人合成系统在声纹嵌入相似性和等误差率测量方面均能实现较高的语音相似度。