Aug, 2024

风格对话生成器:微调音频语言模型与基于风格的文本到语音模型以实现快速语音对话生成

TL;DR本研究解决了在语音对话生成中实时性与自然性不足的问题,提出了一种创新框架Style-Talker,通过微调音频语言模型与风格化文本到语音模型,利用用户输入音频生成响应的语音风格与文本。实验结果显示,Style-Talker在对话的自然性与连贯性上显著优于传统的级联模型,同时速度提高超过50%。