Sep, 2023

基于大型语言模型的对话响应与语音合成的联合建模研究

TL;DR本文研究构建一种 “思考如何回应” 和 “思考如何讲话” 的人工智能口语对话系统,相比当前独立的聊天机器人和文本到语音(TTS)模块的级联流水线,更贴近人类语音生成过程。研究使用拥有数十亿参数的大型语言模型(LLMs),展示其在语音理解能力上的潜力,并通过统一的编码格式进一步整合对话回应和各种语言特征。实验结果表明,基于 LLM 的方法是构建统一口语对话系统的一种有前景的方向。