人机对话：通过可感知的声音接收和反应展现同理心

ACLJun, 2024

人机对话：通过可感知的声音接收和反应展现同理心

Talk With Human-like Agents: Empathetic Dialogue Through Perceptible Acoustic Reception and Reaction

Haoqiu Yan, Yongxin Zhu, Kai Zheng, Bing Liu, Haoyu Cao...

TL;DR提出了 PerceptiveAgent，一种具有共情能力的多模式对话系统，通过集成语音模态感知来识别言辞背后更深层次或更微妙的意义，实验结果表明，PerceptiveAgent 在情境理解方面表现出色，能够准确辨别发言者的真实意图，即使语言意义与讲话者真实感受相悖产生更细致和富有表达力的口头对话。

Abstract

large language model (LLM)-enhanced agents become increasingly prevalent in Human-AI communication, offering vast potential from entertainment to professional domains. However, current multi-modal dialogue systems

large language model multi-modal dialogue systems acoustic information empathetic responses contextual understanding

发现论文，激发创造

语音代理：多模式多智能体系统下的人际交流模拟

提出了一种基于多模态 LLM 的多智能体系统 SpeechAgents，用于模拟人类交流，并通过多智能体调优增强了 LLM 的多智能体能力，实验结果表明 SpeechAgents 可以具有一致的内容、真实的节奏和丰富的情感，同时在高达 25 个代理人的情况下表现出优秀的可扩展性。

Jan, 2024

对话界面中的多模态共情

本文介绍了一种基于大型语言模型和生成式人工智能的会话式健康代理，通过分析多模态线索，它可以解释和回应用户的情绪状态，从而提供具有情境意识和共鸣力的交流回应，从而巩固交互式、富有同情心的数字健康解决方案的前沿地位。

May, 2024

利用大型语言模型的潜力进行共情回应的生成：实证研究和改进

大型语言模型在培养有同理心的对话、构建和谐社会关系以及发展有帮助的人工智能方面具有至关重要的作用。本研究通过实证调查了大型语言模型在生成有同理心的回应方面的性能，并提出了三种改进方法：语义上下文学习、两阶段交互生成和与知识库的结合。广泛的实验证明，我们的方法能够显著改善大型语言模型的性能，在自动评估和人工评估方面达到最先进的水平。此外，我们还探索了 GPT-4 模型模拟人工评估者的可能性。

Oct, 2023

与环境对话：使用大型语言模型进行交互式多模态感知

在机器人的交互感知中，使用预先训练的大型语言模型（LLMs）作为交互感知框架，并将其应用于决策问题以及规划多模态环境中的任务执行，这样可以通过感知来指导认知行为和高层次的决策规划，这种方法可以显著提高任务完成的准确性和效率。

Mar, 2023

再次问候！基于 LLM 的个性化长期对话代理

开放域对话系统的关键是提供长期陪伴和个性化互动，长期对话代理 (LD-Agent) 模型可以通过事件概括和个性化管理模块，增强自动化认知和问题解决能力。

Jun, 2024

基于大型语言模型的全双工语音对话方案

我们提出了一个基于大型语言模型的生成对话系统，能够以全双工方式运行，并同时处理对话中的听与说任务。

May, 2024

增强的说话对话的语音模型中的次语言学特征

大型语言模型在聊天、推理和问答等任务中表现出卓越的能力，然而标准的语言模型可能会忽略关键的语用信息，如情感、情感和口语风格，而这些信息对于实现自然、类似人类的口语对话非常重要，特别是当这些信息通过声学提示来传达时。因此，我们提出了一种增强语用的生成预训练变压器（ParalinGPT），该模型利用文本和语音模态来更好地建模口语回应的语言内容和语用属性。该模型将文本的对话背景、语音嵌入和语用属性作为输入提示，在序列化的多任务多模态框架中。实验结果表明，所提出的序列化多任务方法在当前和回应的情感分类上优于典型的序列分类技术。此外，利用对话背景和语音嵌入显著改进了回应文本的生成和情感预测。我们提出的框架在当前情感准确度、回应情感准确度和回应文本 BLEU 分数上分别取得了 6.7％、12.0％和 3.5％的相对改进。

Dec, 2023

基于大型语言模型的对话响应与语音合成的联合建模研究

本文研究构建一种 “思考如何回应” 和 “思考如何讲话” 的人工智能口语对话系统，相比当前独立的聊天机器人和文本到语音（TTS）模块的级联流水线，更贴近人类语音生成过程。研究使用拥有数十亿参数的大型语言模型（LLMs），展示其在语音理解能力上的潜力，并通过统一的编码格式进一步整合对话回应和各种语言特征。实验结果表明，基于 LLM 的方法是构建统一口语对话系统的一种有前景的方向。

Sep, 2023

多模态方法在大型语言模型中的设备导向语音检测

虚拟助手的交互通常以预定义的触发短语作为开端，我们探索是否可以放弃用户必须以触发短语开始每个指令的要求。通过三种方式进行实验：首先，只使用从音频波形中获得的声学信息来训练分类器；其次，将自动语音识别（ASR）系统的解码器输出，如 1 最佳假设，作为大型语言模型（LLM）的输入特征；最后，探索结合声学和词汇特征以及 ASR 解码器信号的多模态系统。使用多模态信息相对于仅文本和仅音频的模型，在等误差率上可以获得高达 39% 和 61% 的改进。增加 LLM 的规模，并使用低秩适应来进行训练，在我们的数据集上进一步降低了相对误差率高达 18%。

Mar, 2024

为共创即兴剧院设计和评估对话 LLMs

社交机器人研究者对于多方训练的对话代理越来越感兴趣。本研究在爱丁堡节的一个月长的现场表演中使用大型语言模型（LLMs），调查了在职业剧院环境中，人类演员如何与对话代理合作创作。我们探索了即兴多方对话的技术能力和限制，并从观众和表演者的经验中提供了全面的见解。我们的 “人在环环” 的方法强调了这些 LLMs 在生成与上下文相关的回复方面的挑战，并强调了用户界面的关键作用。观众的反馈表明了对 AI 驱动的现场娱乐、人机直接互动以及对 AI 在创造力支持工具方面多样化的期望。人类演员表达了巨大的热情和不同程度的满意度，而不断演变的公众舆论则凸显了人们对于 AI 在艺术中的角色的复杂情感。

May, 2024