人机对话:通过可感知的声音接收和反应展现同理心
提出了一种基于多模态 LLM 的多智能体系统 SpeechAgents,用于模拟人类交流,并通过多智能体调优增强了 LLM 的多智能体能力,实验结果表明 SpeechAgents 可以具有一致的内容、真实的节奏和丰富的情感,同时在高达 25 个代理人的情况下表现出优秀的可扩展性。
Jan, 2024
本文介绍了一种基于大型语言模型和生成式人工智能的会话式健康代理,通过分析多模态线索,它可以解释和回应用户的情绪状态,从而提供具有情境意识和共鸣力的交流回应,从而巩固交互式、富有同情心的数字健康解决方案的前沿地位。
May, 2024
大型语言模型在培养有同理心的对话、构建和谐社会关系以及发展有帮助的人工智能方面具有至关重要的作用。本研究通过实证调查了大型语言模型在生成有同理心的回应方面的性能,并提出了三种改进方法:语义上下文学习、两阶段交互生成和与知识库的结合。广泛的实验证明,我们的方法能够显著改善大型语言模型的性能,在自动评估和人工评估方面达到最先进的水平。此外,我们还探索了 GPT-4 模型模拟人工评估者的可能性。
Oct, 2023
在机器人的交互感知中,使用预先训练的大型语言模型(LLMs)作为交互感知框架,并将其应用于决策问题以及规划多模态环境中的任务执行,这样可以通过感知来指导认知行为和高层次的决策规划,这种方法可以显著提高任务完成的准确性和效率。
Mar, 2023
开放域对话系统的关键是提供长期陪伴和个性化互动,长期对话代理 (LD-Agent) 模型可以通过事件概括和个性化管理模块,增强自动化认知和问题解决能力。
Jun, 2024
大型语言模型在聊天、推理和问答等任务中表现出卓越的能力,然而标准的语言模型可能会忽略关键的语用信息,如情感、情感和口语风格,而这些信息对于实现自然、类似人类的口语对话非常重要,特别是当这些信息通过声学提示来传达时。因此,我们提出了一种增强语用的生成预训练变压器(ParalinGPT),该模型利用文本和语音模态来更好地建模口语回应的语言内容和语用属性。该模型将文本的对话背景、语音嵌入和语用属性作为输入提示,在序列化的多任务多模态框架中。实验结果表明,所提出的序列化多任务方法在当前和回应的情感分类上优于典型的序列分类技术。此外,利用对话背景和语音嵌入显著改进了回应文本的生成和情感预测。我们提出的框架在当前情感准确度、回应情感准确度和回应文本 BLEU 分数上分别取得了 6.7%、12.0%和 3.5%的相对改进。
Dec, 2023
本文研究构建一种 “思考如何回应” 和 “思考如何讲话” 的人工智能口语对话系统,相比当前独立的聊天机器人和文本到语音(TTS)模块的级联流水线,更贴近人类语音生成过程。研究使用拥有数十亿参数的大型语言模型(LLMs),展示其在语音理解能力上的潜力,并通过统一的编码格式进一步整合对话回应和各种语言特征。实验结果表明,基于 LLM 的方法是构建统一口语对话系统的一种有前景的方向。
Sep, 2023
虚拟助手的交互通常以预定义的触发短语作为开端,我们探索是否可以放弃用户必须以触发短语开始每个指令的要求。通过三种方式进行实验:首先,只使用从音频波形中获得的声学信息来训练分类器;其次,将自动语音识别(ASR)系统的解码器输出,如 1 最佳假设,作为大型语言模型(LLM)的输入特征;最后,探索结合声学和词汇特征以及 ASR 解码器信号的多模态系统。使用多模态信息相对于仅文本和仅音频的模型,在等误差率上可以获得高达 39% 和 61% 的改进。增加 LLM 的规模,并使用低秩适应来进行训练,在我们的数据集上进一步降低了相对误差率高达 18%。
Mar, 2024
社交机器人研究者对于多方训练的对话代理越来越感兴趣。本研究在爱丁堡节的一个月长的现场表演中使用大型语言模型(LLMs),调查了在职业剧院环境中,人类演员如何与对话代理合作创作。我们探索了即兴多方对话的技术能力和限制,并从观众和表演者的经验中提供了全面的见解。我们的 “人在环环” 的方法强调了这些 LLMs 在生成与上下文相关的回复方面的挑战,并强调了用户界面的关键作用。观众的反馈表明了对 AI 驱动的现场娱乐、人机直接互动以及对 AI 在创造力支持工具方面多样化的期望。人类演员表达了巨大的热情和不同程度的满意度,而不断演变的公众舆论则凸显了人们对于 AI 在艺术中的角色的复杂情感。
May, 2024