基于大型语言模型的全双工语音对话方案
本文研究构建一种 “思考如何回应” 和 “思考如何讲话” 的人工智能口语对话系统,相比当前独立的聊天机器人和文本到语音(TTS)模块的级联流水线,更贴近人类语音生成过程。研究使用拥有数十亿参数的大型语言模型(LLMs),展示其在语音理解能力上的潜力,并通过统一的编码格式进一步整合对话回应和各种语言特征。实验结果表明,基于 LLM 的方法是构建统一口语对话系统的一种有前景的方向。
Sep, 2023
本文描述了一个支持扩展多模态交互的系统,通过使用大型语言模型 (LLMs) 将用户的英语语句映射到领域特定的代码,我们探索了 LLMs 在上下文敏感性方面捕捉演算发言者意图的程度。
Oct, 2023
利用大型语言模型(LLM)的 Talk-to-Drive 框架,通过处理人类的口头指令并结合上下文信息做出自主驾驶决策,实现个性化的安全、高效和舒适,成功率达到 100% 的执行命令,并在现实世界的实验中将不同驾驶员的接管率大幅降低至高达 90.1%,是在真实自主驾驶环境中应用 LLM 的首次实例。
Dec, 2023
评估大语言模型在教育中的功效,特别是在口语学习领域,引入新的多选题数据集评估模型在理解和应用口语知识方面的表现,研究不同提示技术对模型性能的影响,发现模型在音韵学、语音学和第二语言习得方面具有良好的概念理解,但在解决现实世界问题的推理方面存在限制,并初步探讨了对话交流的发现。
Aug, 2023
使用 LLM(Large Pre-Trained Language Models)评估了在口语任务导向对话中的性能,结果表明 LLMs 默认情况下对口头噪音不够鲁棒,但在正确的口头 TOD 数据集上进行微调 / 训练可以获得更强的性能。
Jan, 2024
通过分析谷歌自然问答数据库,本文展示了 GPT-4 可在超过 60%的时间内从问题末尾的遗漏词语有效填补丢失的上下文,并探讨了这种信息损失对发展中的角色模型质量的影响,同时提出了使用简单分类器来确定是否需要填充短语以满足人类对话时间限制的问题是否语义完整。
Apr, 2024
我们提出了一种通过将神经声学模型与大型语言模型(LLM)融合的方法,连续预测口语对话中的交替和回应位置。在 Switchboard 人人对话数据集上的实验证明,我们的方法始终优于单模态的基线模型。我们还开发了一种新颖的多任务指令微调策略,以进一步从 LLM 编码的知识中获益,以理解任务和对话语境,从而带来额外的改进。我们的方法展示了结合 LLM 和声学模型在人类和语音启用的 AI 代理之间实现更自然和对话式交互的潜力。
Jan, 2024
我们提出了一个框架,使用大型语言模型异步处理系统的部分,以返回适当的回应和理解用户意图并搜索数据库的部分,以提高回应效率和输出速度。
Dec, 2023
DuetSim 是一个利用大型语言模型的创新框架,通过采用两个语言模型来生成任务导向的对话,既增加了回答的多样性又提高了准确性,通过在 MultiWOZ 数据集上的实验证实了其效果。
May, 2024