基于大型语言模型的对话响应与语音合成的联合建模研究

Sep, 2023

基于大型语言模型的对话响应与语音合成的联合建模研究

Towards Joint Modeling of Dialogue Response and Speech Synthesis based on Large Language Model

Xinyu Zhou, Delong Chen, Yudong Chen

TL;DR本文研究构建一种 “思考如何回应” 和 “思考如何讲话” 的人工智能口语对话系统，相比当前独立的聊天机器人和文本到语音（TTS）模块的级联流水线，更贴近人类语音生成过程。研究使用拥有数十亿参数的大型语言模型（LLMs），展示其在语音理解能力上的潜力，并通过统一的编码格式进一步整合对话回应和各种语言特征。实验结果表明，基于 LLM 的方法是构建统一口语对话系统的一种有前景的方向。

Abstract

This paper explores the potential of constructing an AI spoken dialogue system that "thinks how to respond" and "thinks how to speak" simultaneously, which more closely aligns with the human speech production process compared to the current cascade pipeline of independent chatbot and Text-to-Speech (TTS) modules. We hypothesize that →

ai spoken dialogue system speech understanding large language models dialogue response linguistic features

发现论文，激发创造

基于大型语言模型的全双工语音对话方案

我们提出了一个基于大型语言模型的生成对话系统，能够以全双工方式运行，并同时处理对话中的听与说任务。

May, 2024

大型语言模型在语言学习中的口语智能

评估大语言模型在教育中的功效，特别是在口语学习领域，引入新的多选题数据集评估模型在理解和应用口语知识方面的表现，研究不同提示技术对模型性能的影响，发现模型在音韵学、语音学和第二语言习得方面具有良好的概念理解，但在解决现实世界问题的推理方面存在限制，并初步探讨了对话交流的发现。

Aug, 2023

语音和大型语言模型融合的交替对话和听众回应预测

我们提出了一种通过将神经声学模型与大型语言模型（LLM）融合的方法，连续预测口语对话中的交替和回应位置。在 Switchboard 人人对话数据集上的实验证明，我们的方法始终优于单模态的基线模型。我们还开发了一种新颖的多任务指令微调策略，以进一步从 LLM 编码的知识中获益，以理解任务和对话语境，从而带来额外的改进。我们的方法展示了结合 LLM 和声学模型在人类和语音启用的 AI 代理之间实现更自然和对话式交互的潜力。

Jan, 2024

将口语理解任务与集成对话历史联合建模

该研究旨在构建一种新型的自动预测语音理解系统，该系统利用历史对话信息预测口语意图、对话行为、说话人角色和情感等四种属性，并采用自回归模型和无序训练方法，以应对不同 SLU 任务的高效率和低延迟问题。实验证明，该系统与任务特定的分类器相当，并可有效整合对话环境以进一步提高 SLU 性能。

May, 2023

使用音频启动大型语言模型进行通用语音摘要

利用大型语言模型的处理和推理能力，我们引入了一个语音摘要的框架。该框架结合了经过调整的指令型语言模型和将语音转换为令牌表示的音频编码器，以使语言模型能够解释语音输入，并可根据输入模态产生一致的响应。与先前的方法不同，我们的方法能摘要任意领域的口述内容，并通过变化语言模型提示策略产生不同风格的摘要，实验证明我们的方法优于基于语音识别和语言模型的级联基线模型。

Jun, 2024

基于大语言模型的对话式生成自动驾驶仿真场景

本文描述了一个支持扩展多模态交互的系统，通过使用大型语言模型 (LLMs) 将用户的英语语句映射到领域特定的代码，我们探索了 LLMs 在上下文敏感性方面捕捉演算发言者意图的程度。

Oct, 2023

边思考边说话：文本生成期间的实时流式语音合成

LLM2Speech 架构用于通过 LLM 生成语音，以减少显著的延迟并实现自然对话。

Sep, 2023

大型语言模型在语音合成中的提升：一项实证研究

本文综合实证研究了如何增强大型语言模型（LLMs）的语音合成能力，比较了三种 LLMs 和语音合成模型（VALL-E）的集成方法，结果显示利用 LLMs 作为文本编码器的耦合方法取得了最佳性能，比原始语音合成模型在讲话者相似度和词错误率（WER）方面表现更好。

Dec, 2023

推动大型语言模型在口语对话中捕捉多样的言谈风格并作出恰当回应

在口语对话中，即使两个当前对话相同，它们的回应在不同的语言风格中可能仍然不同。这篇论文提出了一种 Spoken-LLM 框架，旨在教导 LLMs 理解和适当回应不同的语言风格，并使用 StyleTalk 数据集进行训练，通过两个阶段的训练使 Spoken-LLM 更好地学习语言风格，实验证明 Spoken-LLM 表现优于纯文本基准和先前的语音 LLMs 方法。

Feb, 2024

利用大型语言模型进行端到端语音识别的语境化

通过引入一种新方法，结合大型语言模型（LLMs）来进行上下文化的语音识别模型，我们证明通过添加适配器的少量可训练参数，可以在保持相同的文本输入功能的同时，实现预训练 LLM 的上下文化语音识别能力并显著提高性能。

Sep, 2023