语音和大型语言模型融合的交替对话和听众回应预测

Jan, 2024

语音和大型语言模型融合的交替对话和听众回应预测

Turn-taking and Backchannel Prediction with Acoustic and Large Language Model Fusion

Jinhan Wang, Long Chen, Aparna Khare, Anirudh Raju, Pranav Dheram...

TL;DR我们提出了一种通过将神经声学模型与大型语言模型（LLM）融合的方法，连续预测口语对话中的交替和回应位置。在 Switchboard 人人对话数据集上的实验证明，我们的方法始终优于单模态的基线模型。我们还开发了一种新颖的多任务指令微调策略，以进一步从 LLM 编码的知识中获益，以理解任务和对话语境，从而带来额外的改进。我们的方法展示了结合 LLM 和声学模型在人类和语音启用的 AI 代理之间实现更自然和对话式交互的潜力。

Abstract

We propose an approach for continuous prediction of turn-taking and backchanneling locations in →

continuous prediction turn-taking backchanneling spoken dialogue large language model

发现论文，激发创造

基于大型语言模型的对话响应与语音合成的联合建模研究

本文研究构建一种 “思考如何回应” 和 “思考如何讲话” 的人工智能口语对话系统，相比当前独立的聊天机器人和文本到语音（TTS）模块的级联流水线，更贴近人类语音生成过程。研究使用拥有数十亿参数的大型语言模型（LLMs），展示其在语音理解能力上的潜力，并通过统一的编码格式进一步整合对话回应和各种语言特征。实验结果表明，基于 LLM 的方法是构建统一口语对话系统的一种有前景的方向。

Sep, 2023

使用多尺度 RNN 进行多模态连续交替预测

提出了一种多尺度 RNN 架构，用于在不同的时间尺度上模拟交谈中多个模态的特征，模拟语言和声音特征在不同的时间尺度上对于对话期间的特性建模是有益的，同时我们的方法还能够将凝视特征纳入到对话模型中。

Aug, 2018

使用音频启动大型语言模型进行通用语音摘要

利用大型语言模型的处理和推理能力，我们引入了一个语音摘要的框架。该框架结合了经过调整的指令型语言模型和将语音转换为令牌表示的音频编码器，以使语言模型能够解释语音输入，并可根据输入模态产生一致的响应。与先前的方法不同，我们的方法能摘要任意领域的口述内容，并通过变化语言模型提示策略产生不同风格的摘要，实验证明我们的方法优于基于语音识别和语言模型的级联基线模型。

Jun, 2024

多模态方法在大型语言模型中的设备导向语音检测

虚拟助手的交互通常以预定义的触发短语作为开端，我们探索是否可以放弃用户必须以触发短语开始每个指令的要求。通过三种方式进行实验：首先，只使用从音频波形中获得的声学信息来训练分类器；其次，将自动语音识别（ASR）系统的解码器输出，如 1 最佳假设，作为大型语言模型（LLM）的输入特征；最后，探索结合声学和词汇特征以及 ASR 解码器信号的多模态系统。使用多模态信息相对于仅文本和仅音频的模型，在等误差率上可以获得高达 39% 和 61% 的改进。增加 LLM 的规模，并使用低秩适应来进行训练，在我们的数据集上进一步降低了相对误差率高达 18%。

Mar, 2024

基于大型语言模型的全双工语音对话方案

我们提出了一个基于大型语言模型的生成对话系统，能够以全双工方式运行，并同时处理对话中的听与说任务。

May, 2024

利用对比学习进行带门限的多模态融合，以预测人机对话中的轮流发言

本研究采集了一组大规模的多模式对话语料库，并设计了一种新的门控多模式融合机制来利用各种信息进行转换预测。为了解决数据不平衡问题，我们设计了一种简单且有效的数据增强方法，通过对比学习得到更好的特征表示。实验证明，我们的模型在多个方面表现优异，比几种最先进的基准方法更为竞争力。

Apr, 2022

采用非成对数据实现大型语言模型的通用语音能力

通过扩展 instruction-tuned Llama-2 模型的同时保持 LLM 的广泛能力范围，本研究提出了一种具备端到端通用语音处理和推理能力的模型。该模型可以使用音频提示代替文本进行对话，并且具备跨模态的能力，例如语音问答、语音翻译和音频摘要等。通过实验，我们证明了这种端到端的方法在建模回应时与或优于级联系统（语音识别器 + LLM），并且可以更好地利用对话中的先前上下文提供更好的结果。

Nov, 2023

大型语言模型在语言学习中的口语智能

评估大语言模型在教育中的功效，特别是在口语学习领域，引入新的多选题数据集评估模型在理解和应用口语知识方面的表现，研究不同提示技术对模型性能的影响，发现模型在音韵学、语音学和第二语言习得方面具有良好的概念理解，但在解决现实世界问题的推理方面存在限制，并初步探讨了对话交流的发现。

Aug, 2023

利用大型语言模型进行端到端语音识别的语境化

通过引入一种新方法，结合大型语言模型（LLMs）来进行上下文化的语音识别模型，我们证明通过添加适配器的少量可训练参数，可以在保持相同的文本输入功能的同时，实现预训练 LLM 的上下文化语音识别能力并显著提高性能。

Sep, 2023

通过将检测演讲者意图作为次要任务来改善口语对话中的转折点检测

本文介绍了使用声学线索模型来理解对话者交替的研究，提出了一种多任务神经方法，同时预测转换转变和发言者意图，实验结果表明，使用发言者意图预测的辅助任务可以提高对话中转换转变的预测性能。

May, 2018