推动大型语言模型在口语对话中捕捉多样的言谈风格并作出恰当回应

Feb, 2024

推动大型语言模型在口语对话中捕捉多样的言谈风格并作出恰当回应

Advancing Large Language Models to Capture Varied Speaking Styles and Respond Properly in Spoken Conversations

Guan-Ting Lin, Cheng-Han Chiang, Hung-yi Lee

TL;DR在口语对话中，即使两个当前对话相同，它们的回应在不同的语言风格中可能仍然不同。这篇论文提出了一种 Spoken-LLM 框架，旨在教导 LLMs 理解和适当回应不同的语言风格，并使用 StyleTalk 数据集进行训练，通过两个阶段的训练使 Spoken-LLM 更好地学习语言风格，实验证明 Spoken-LLM 表现优于纯文本基准和先前的语音 LLMs 方法。

Abstract

In spoken dialogue, even if two current turns are the same sentence, their responses might still differ when they are spoken in different styles. The spoken styles, containing paralinguistic and prosodic information, mark the most significant difference between text and speech modality

spoken dialogue speaking styles llms styletalk dataset spoken-llm

发现论文，激发创造

增强的说话对话的语音模型中的次语言学特征

大型语言模型在聊天、推理和问答等任务中表现出卓越的能力，然而标准的语言模型可能会忽略关键的语用信息，如情感、情感和口语风格，而这些信息对于实现自然、类似人类的口语对话非常重要，特别是当这些信息通过声学提示来传达时。因此，我们提出了一种增强语用的生成预训练变压器（ParalinGPT），该模型利用文本和语音模态来更好地建模口语回应的语言内容和语用属性。该模型将文本的对话背景、语音嵌入和语用属性作为输入提示，在序列化的多任务多模态框架中。实验结果表明，所提出的序列化多任务方法在当前和回应的情感分类上优于典型的序列分类技术。此外，利用对话背景和语音嵌入显著改进了回应文本的生成和情感预测。我们提出的框架在当前情感准确度、回应情感准确度和回应文本 BLEU 分数上分别取得了 6.7％、12.0％和 3.5％的相对改进。

Dec, 2023

基于大型语言模型的对话响应与语音合成的联合建模研究

本文研究构建一种 “思考如何回应” 和 “思考如何讲话” 的人工智能口语对话系统，相比当前独立的聊天机器人和文本到语音（TTS）模块的级联流水线，更贴近人类语音生成过程。研究使用拥有数十亿参数的大型语言模型（LLMs），展示其在语音理解能力上的潜力，并通过统一的编码格式进一步整合对话回应和各种语言特征。实验结果表明，基于 LLM 的方法是构建统一口语对话系统的一种有前景的方向。

Sep, 2023

大型语言模型在语言学习中的口语智能

评估大语言模型在教育中的功效，特别是在口语学习领域，引入新的多选题数据集评估模型在理解和应用口语知识方面的表现，研究不同提示技术对模型性能的影响，发现模型在音韵学、语音学和第二语言习得方面具有良好的概念理解，但在解决现实世界问题的推理方面存在限制，并初步探讨了对话交流的发现。

Aug, 2023

PSLM: 并行生成用于低延迟口语对话系统的文本和语音的 LLM

多模式语言模型通过扩展输入和输出序列，支持并行生成文本和语音，从而改善响应生成的延迟，并保持响应内容的质量。在口语问答任务上的实验证明，该方法进一步通过生成多个语音序列来减少延迟。

Jun, 2024

LLM 在口语对话中的稳健性研究

使用 LLM（Large Pre-Trained Language Models）评估了在口语任务导向对话中的性能，结果表明 LLMs 默认情况下对口头噪音不够鲁棒，但在正确的口头 TOD 数据集上进行微调 / 训练可以获得更强的性能。

Jan, 2024

StyleChat: 基于 LMM 的记忆式学习在风格化对话生成中的应用

通过构建 38 种风格的语料库，研究团队提出了一种基于记忆和多任务学习策略的对话生成框架 StyleChat，它能够有效地解决基于大规模语言模型的风格化对话生成中的数据偏差问题，并在测试中取得了优秀的表现。

Mar, 2024

口语对话建模的统一语音文本预训练

提出了一个名为统一口语对话模型（USDM）的广泛的语音文本模型框架，用于生成与给定输入语音相关的有机韵律特征的连贯口语回应，而不依赖于自动语音识别（ASR）或文本到语音（TTS）解决方案。该方法利用底层大型语言模型所展示的推理链能力，采用多步骤的语音文本推理方案。经过自动和人工评估表明，该方法在生成自然流畅的口语回应方面非常有效，优于之前的和级联的基线方法。详细的比较研究显示，尽管级联方法在单独的组件上更强大，但联合的语音文本建模改善了对识别错误和语音质量的鲁棒性。

Feb, 2024

基于大型语言模型的情境对话用于第二语言学习

在第二语言学习中，基于情景的对话实践对于语言学习者实现口语流利至关重要，本文提出了基于情境的对话模型，通过在大型语言模型（LLMs）上进行微调，旨在结合开放式对话的吸引力和基于情景任务的集中练习。利用 LLMs 的泛化能力，我们证明了我们的情境对话模型在训练话题和未遇到的话题上都有效，为支持广泛的会话主题提供了有希望的解决方案。此外，对话系统领域的研究仍缺乏可靠的自动评估指标，引发人工评估作为黄金标准（Smith 等，2022）的问题，而且通常成本较高。为了解决现有评估方法的局限性，我们提出了一种新颖的自动评估方法，利用经过微调的 LLMs 来高效而有效地评估情境对话模型的性能。

Mar, 2024

基于 BERT 的语言模型在口语转录中学习的实证研究

本文介绍了将自然语言处理的特性应用于口语语言理解上，包括不同的话语特征和多模态表现。该文尝试拆解口语的语言障碍和多重意思，并探讨了 BERT 和 RoBERTa 语言模型对 SLU 的适应性和局限性。文中还验证了语言模型对话语特征的表现，尤其是对于声学提示较少的语音模型的成果。

Sep, 2021

衡量和基准大型语言模型生成有说服力语言的能力

我们研究了大型语言模型（LLMs）产生有说服力的文本的能力，通过构建一个新的数据集 Persuasive-Pairs，用于训练回归模型来预测文本对之间的说服力得分，并讨论了系统提示中不同 'personas' 对文本的影响。

Jun, 2024