在 LLMs 时代构建情感支持聊天机器人
大型语言模型在培养有同理心的对话、构建和谐社会关系以及发展有帮助的人工智能方面具有至关重要的作用。本研究通过实证调查了大型语言模型在生成有同理心的回应方面的性能,并提出了三种改进方法:语义上下文学习、两阶段交互生成和与知识库的结合。广泛的实验证明,我们的方法能够显著改善大型语言模型的性能,在自动评估和人工评估方面达到最先进的水平。此外,我们还探索了 GPT-4 模型模拟人工评估者的可能性。
Oct, 2023
本研究通过比较五款大型语言模型(LLMs)生成的相应和传统对话系统及人工生成的相应,发现 LLMs 在大多数情景中表现出更高的同理心,从而探索并验证 LLMs 在模拟心理咨询对话中生成同理心回应的能力。
Oct, 2023
通过对来自不同国家背景的 21 位个体进行访谈,我们调查了使用 LLM 聊天机器人进行心理健康支持的人们的亲身经历,并对用户如何为他们的聊天机器人创造独特的支持角色、填补日常护理的空白以及在寻求聊天机器人支持时如何应对相关的文化限制进行了分析。我们将分析基于心理治疗文献中有效支持的概念,并介绍了治疗性对齐的概念,即将人工智能与心理健康背景下的治疗价值对齐。我们的研究为设计师如何以道德且有效的方式应对 LLM 聊天机器人和其他人工智能心理健康支持工具在心理健康护理中的使用提供了建议。
Jan, 2024
本文探讨了如何将类人情感和伦理考虑整合到大型语言模型(LLM)中,并通过协作式 LLM 对八种基本人类情感进行建模,以及通过自我监督学习算法与人类反馈指导在 LLM 中嵌入潜在的伦理维度。利用该方法,LLMs 能够进行自我评估和调整以符合伦理准则,并提高其生成与情感共鸣和伦理一致的内容的能力。所提出的方法和案例研究展示了 LLMs 超越纯文本和图像生成,进入共情互动和有原则决策领域的潜力,并在情感意识和伦理意识的 AI 系统发展中树立了新的范例。
Apr, 2024
大型语言模型(LLMs)在医疗领域的整合潜在地可以通过开发具有共情能力,面向患者的聊天机器人,显著增强患者护理和支持。本研究调查了一个有趣的问题:相较于通常由医生提供的,ChatGPT 能否提供更高程度的共情回应?为了回答这个问题,我们从梅奥诊所收集了病人信息和医生回复的去标识化数据集,并使用 ChatGPT 生成了备选回复。我们的分析包括了一种新的共情评级(EMRank)评估方法,评估回复的共情程度,该方法涵盖了自动化指标和人工评估。我们的研究结果表明,由 LLM 驱动的聊天机器人在传递共情沟通方面有超过人类医生的潜力,这为增强患者护理和减少专业倦怠提供了有前景的途径。本研究不仅强调了患者互动中共情的重要性,还提出了一套有效的自动共情评级指标,为 LLM 在医疗领域更广泛的应用铺平了道路。
May, 2024
我们开发了一个评估框架,以确定大型语言模型在自动化心理健康治疗方面是否是可行和道德的前进路径,并通过人工评估和心理学研究的自动质量评估指标,比较了点对点响应者提供的回应与一种最先进的大型语言模型提供的回应。我们展示了像 GPT-4 这样的大型语言模型使用隐式和显式线索推断患者人口统计学特征,然后展示了患者子群之间存在统计上显著差异:对于黑人发帖的回应一直比其他人口统计群体的同一回应具有较低的同理心(比对照组低 2%-13%)。我们发现回应生成的方式显著影响回应的质量。最后,我们提出了大型语言模型在心理健康响应潜在部署中的安全指南。
May, 2024
利用心理学中的情感评估理论,我们提出了一种评估大型语言模型(LLMs)的同理心能力的方法,通过在具体情境中观察其感受变化。我们收集了超过 400 个情境,根据 8 种情绪将其分成 36 个因素,并进行了包含超过 1200 名全球参与者的人工评价实验。研究结果显示,尽管存在一些偏差,LLMs 总体能够适当地对特定情况做出反应,但仍然无法与人类的情绪行为建立联系。我们公开了情境数据集、人工评估结果以及我们的测试框架 EmotionBench 的代码,旨在提高 LLMs 在与人类情绪行为的对齐方面的应用价值和实用性。
Aug, 2023
使用多模态信息、上下文和情感知识调整的对话型大型语言模型 (DialogueLLM),通过对 13,638 个多模态(文本和视频)情感对话进行微调,克服了大型语言模型在情感识别方面的局限性,并在三个基准情感对话识别数据集上进行了全面评估。
Oct, 2023