Jul, 2024

生成性表现对话语音合成

TL;DR本文解决了现有对话语音合成方法在模拟真实自然对话风格方面的不足,提出了一种新颖的生成性表现对话语音合成系统——GPT-Talker。通过将多轮对话历史的多模态信息转化为离散的token序列,并利用GPT技术预测响应的token序列,使我们的模型在自然性和表现力上显著优于其他先进的对话语音合成系统。