增强的说话对话的语音模型中的次语言学特征

Dec, 2023

增强的说话对话的语音模型中的次语言学特征

Paralinguistics-Enhanced Large Language Modeling of Spoken Dialogue

Guan-Ting Lin, Prashanth Gurunath Shivakumar, Ankur Gandhe, Chao-Han Huck Yang, Yile Gu...

TL;DR大型语言模型在聊天、推理和问答等任务中表现出卓越的能力，然而标准的语言模型可能会忽略关键的语用信息，如情感、情感和口语风格，而这些信息对于实现自然、类似人类的口语对话非常重要，特别是当这些信息通过声学提示来传达时。因此，我们提出了一种增强语用的生成预训练变压器（ParalinGPT），该模型利用文本和语音模态来更好地建模口语回应的语言内容和语用属性。该模型将文本的对话背景、语音嵌入和语用属性作为输入提示，在序列化的多任务多模态框架中。实验结果表明，所提出的序列化多任务方法在当前和回应的情感分类上优于典型的序列分类技术。此外，利用对话背景和语音嵌入显著改进了回应文本的生成和情感预测。我们提出的框架在当前情感准确度、回应情感准确度和回应文本 BLEU 分数上分别取得了 6.7％、12.0％和 3.5％的相对改进。

Abstract

large language models (LLMs) have demonstrated superior abilities in tasks such as chatting, reasoning, and question-answering. However, standard LLMs may ignore crucial paralinguistic information, such as sentiment, emotion, and speaking style, which are essential for achieving natura

large language models paralinguistics-enhanced generative pretrained transformer multitasking multi-modal framework sentiment prediction speech embeddings

发现论文，激发创造

推动大型语言模型在口语对话中捕捉多样的言谈风格并作出恰当回应

在口语对话中，即使两个当前对话相同，它们的回应在不同的语言风格中可能仍然不同。这篇论文提出了一种 Spoken-LLM 框架，旨在教导 LLMs 理解和适当回应不同的语言风格，并使用 StyleTalk 数据集进行训练，通过两个阶段的训练使 Spoken-LLM 更好地学习语言风格，实验证明 Spoken-LLM 表现优于纯文本基准和先前的语音 LLMs 方法。

Feb, 2024

利用大型语言模型的共情回应生成能力支持在线心理健康咨询

本研究通过比较五款大型语言模型（LLMs）生成的相应和传统对话系统及人工生成的相应，发现 LLMs 在大多数情景中表现出更高的同理心，从而探索并验证 LLMs 在模拟心理咨询对话中生成同理心回应的能力。

Oct, 2023

大型语言模型在语言学习中的口语智能

评估大语言模型在教育中的功效，特别是在口语学习领域，引入新的多选题数据集评估模型在理解和应用口语知识方面的表现，研究不同提示技术对模型性能的影响，发现模型在音韵学、语音学和第二语言习得方面具有良好的概念理解，但在解决现实世界问题的推理方面存在限制，并初步探讨了对话交流的发现。

Aug, 2023

利用大型语言模型的潜力进行共情回应的生成：实证研究和改进

大型语言模型在培养有同理心的对话、构建和谐社会关系以及发展有帮助的人工智能方面具有至关重要的作用。本研究通过实证调查了大型语言模型在生成有同理心的回应方面的性能，并提出了三种改进方法：语义上下文学习、两阶段交互生成和与知识库的结合。广泛的实验证明，我们的方法能够显著改善大型语言模型的性能，在自动评估和人工评估方面达到最先进的水平。此外，我们还探索了 GPT-4 模型模拟人工评估者的可能性。

Oct, 2023

LLM 在口语对话中的稳健性研究

使用 LLM（Large Pre-Trained Language Models）评估了在口语任务导向对话中的性能，结果表明 LLMs 默认情况下对口头噪音不够鲁棒，但在正确的口头 TOD 数据集上进行微调 / 训练可以获得更强的性能。

Jan, 2024

超越标签：揭示语音情感识别数据集中的文本依赖性

通过检查专门数据集中的词汇重叠和机器学习模型的性能，我们揭示了特质标签中的显著文本依赖性，结果表明一些机器学习模型可能过多关注词汇特征而不是目标的语音特征，研究呼吁研究界重新评估现有数据集和方法论的可靠性，确保机器学习模型真正学到其设计的内容。

Mar, 2024

非流畅语音 -- 单说者会话语音数据集与言语表情

研究表明，非语言语音如笑声、叹息、结巴等虽不直接提供词汇含义，但其提供的语义和语用上下文对理解其间的讽刺等有重要作用。本研究提出了 DisfluencySpeech，一个以真实对话模拟形式重现 Switchboard-1 电话语音语料库中出色演讲的英语语音数据集，为开发能够预测性地从文本中合成非语言语音的 TTS 模型提供了帮助。

Jun, 2024

基于大型语言模型的对话响应与语音合成的联合建模研究

本文研究构建一种 “思考如何回应” 和 “思考如何讲话” 的人工智能口语对话系统，相比当前独立的聊天机器人和文本到语音（TTS）模块的级联流水线，更贴近人类语音生成过程。研究使用拥有数十亿参数的大型语言模型（LLMs），展示其在语音理解能力上的潜力，并通过统一的编码格式进一步整合对话回应和各种语言特征。实验结果表明，基于 LLM 的方法是构建统一口语对话系统的一种有前景的方向。

Sep, 2023

ParroT：使用大型语言模型进行聊天翻译

提出了基于开源 LLMS（LLaMA-7b）和人工翻译评估数据的 ParroT 框架，该框架通过重新规划翻译数据到遵循指令的风格，并引入 “提示” 字段，以调节翻译过程。通过 Finetuning ParroT 模型的三种指令类型，包括翻译指令、对比指令和误差引导指令，实验结果显示翻译指令可以显着提高香草 LLMS 的翻译性能，而误差引导指令则进一步改善了翻译性能，并展示了从人工注释的低质量翻译中学习的重要性。同时，ParroT 模型也可以通过包含多任务数据集 Alpaca 的精调任务中保持其对通用任务的能力。

Apr, 2023

GPT-4 在语言语用学中超越人类表现

本研究通过基于对话的任务评估 Large Language Models（LLMs）和人类主体在解释语用学方面的能力，结果显示 GPT4 在解释语用学方面表现出了优越的性能和速度，同时在人类写作样本的预测试中也表现出了准确性，进一步的分析也揭示了 LLMs 的显著和持续的发展，为通信中心领域 AI 模型的发展和应用提供了重要的启示。

Dec, 2023