Jan, 2024

语音和大型语言模型融合的交替对话和听众回应预测

TL;DR我们提出了一种通过将神经声学模型与大型语言模型(LLM)融合的方法,连续预测口语对话中的交替和回应位置。在 Switchboard 人人对话数据集上的实验证明,我们的方法始终优于单模态的基线模型。我们还开发了一种新颖的多任务指令微调策略,以进一步从 LLM 编码的知识中获益,以理解任务和对话语境,从而带来额外的改进。我们的方法展示了结合 LLM 和声学模型在人类和语音启用的 AI 代理之间实现更自然和对话式交互的潜力。