基于大型语言模型的全双工语音对话方案

May, 2024

基于大型语言模型的全双工语音对话方案

A Full-duplex Speech Dialogue Scheme Based On Large Language Models

Peng Wang, Songshuo Lu, Yaohua Tang, Sijie Yan, Yuanjun Xiong...

TL;DR我们提出了一个基于大型语言模型的生成对话系统，能够以全双工方式运行，并同时处理对话中的听与说任务。

Abstract

We present a generative dialogue system capable of operating in a full-duplex manner, allowing for seamless interaction. It is based on a large language model (LLM) carefully aligned to be aware of a

generative dialogue system full-duplex language model perception module motor function module

发现论文，激发创造

基于大型语言模型的对话响应与语音合成的联合建模研究

本文研究构建一种 “思考如何回应” 和 “思考如何讲话” 的人工智能口语对话系统，相比当前独立的聊天机器人和文本到语音（TTS）模块的级联流水线，更贴近人类语音生成过程。研究使用拥有数十亿参数的大型语言模型（LLMs），展示其在语音理解能力上的潜力，并通过统一的编码格式进一步整合对话回应和各种语言特征。实验结果表明，基于 LLM 的方法是构建统一口语对话系统的一种有前景的方向。

Sep, 2023

超越回合制游戏：利用 Duplex 模型实现实时对话

大型语言模型的双工模型可以实现用户和 AI 的实时对话，通过时间分割多路复用和动态调整，提供即时反馈，改进了用户满意度。

Jun, 2024

基于大语言模型的对话式生成自动驾驶仿真场景

本文描述了一个支持扩展多模态交互的系统，通过使用大型语言模型 (LLMs) 将用户的英语语句映射到领域特定的代码，我们探索了 LLMs 在上下文敏感性方面捕捉演算发言者意图的程度。

Oct, 2023

自主驾驶的大型语言模型：现实世界实验

利用大型语言模型（LLM）的 Talk-to-Drive 框架，通过处理人类的口头指令并结合上下文信息做出自主驾驶决策，实现个性化的安全、高效和舒适，成功率达到 100% 的执行命令，并在现实世界的实验中将不同驾驶员的接管率大幅降低至高达 90.1%，是在真实自主驾驶环境中应用 LLM 的首次实例。

Dec, 2023

大型语言模型在语言学习中的口语智能

评估大语言模型在教育中的功效，特别是在口语学习领域，引入新的多选题数据集评估模型在理解和应用口语知识方面的表现，研究不同提示技术对模型性能的影响，发现模型在音韵学、语音学和第二语言习得方面具有良好的概念理解，但在解决现实世界问题的推理方面存在限制，并初步探讨了对话交流的发现。

Aug, 2023

LLM 在口语对话中的稳健性研究

使用 LLM（Large Pre-Trained Language Models）评估了在口语任务导向对话中的性能，结果表明 LLMs 默认情况下对口头噪音不够鲁棒，但在正确的口头 TOD 数据集上进行微调 / 训练可以获得更强的性能。

Jan, 2024

口语化头像系统的人类相应延迟对话回合

通过分析谷歌自然问答数据库，本文展示了 GPT-4 可在超过 60％的时间内从问题末尾的遗漏词语有效填补丢失的上下文，并探讨了这种信息损失对发展中的角色模型质量的影响，同时提出了使用简单分类器来确定是否需要填充短语以满足人类对话时间限制的问题是否语义完整。

Apr, 2024

语音和大型语言模型融合的交替对话和听众回应预测

我们提出了一种通过将神经声学模型与大型语言模型（LLM）融合的方法，连续预测口语对话中的交替和回应位置。在 Switchboard 人人对话数据集上的实验证明，我们的方法始终优于单模态的基线模型。我们还开发了一种新颖的多任务指令微调策略，以进一步从 LLM 编码的知识中获益，以理解任务和对话语境，从而带来额外的改进。我们的方法展示了结合 LLM 和声学模型在人类和语音启用的 AI 代理之间实现更自然和对话式交互的潜力。

Jan, 2024

AsyncMLD: 对话推荐系统的异步多语言模型框架

我们提出了一个框架，使用大型语言模型异步处理系统的部分，以返回适当的回应和理解用户意图并搜索数据库的部分，以提高回应效率和输出速度。

Dec, 2023

DuetSim: 使用双大型语言模型构建面向任务对话的用户模拟器

DuetSim 是一个利用大型语言模型的创新框架，通过采用两个语言模型来生成任务导向的对话，既增加了回答的多样性又提高了准确性，通过在 MultiWOZ 数据集上的实验证实了其效果。

May, 2024