利用大型语言模型的共情回应生成能力支持在线心理健康咨询
大型语言模型在培养有同理心的对话、构建和谐社会关系以及发展有帮助的人工智能方面具有至关重要的作用。本研究通过实证调查了大型语言模型在生成有同理心的回应方面的性能,并提出了三种改进方法:语义上下文学习、两阶段交互生成和与知识库的结合。广泛的实验证明,我们的方法能够显著改善大型语言模型的性能,在自动评估和人工评估方面达到最先进的水平。此外,我们还探索了 GPT-4 模型模拟人工评估者的可能性。
Oct, 2023
本研究通过与人类基准对比的方式,综合评估了四个最先进的大型语言模型(GPT-4、LLaMA-2、Mixtral-8x7B 和 Gemini-Pro)在共 2000 个情感对话提示中的回应中的移情能力。我们的发现显示,大型语言模型在移情回应能力上显著超过人类,其中 GPT-4 的回应被评为 “好” 的比例比人类基准提高了约 31%。此外,我们发现不同的大型语言模型在回应不同情感时表现显著不同。基于研究结果,我们提出了一种可扩展和可适应的评估框架,用于评估新大型语言模型的移情能力,避免了未来研究中重复这项研究的需求。
Jun, 2024
大型语言模型(LLMs)在许多任务中表现出了令人惊讶的性能,包括撰写表达共情的支持性信息。我们在这里让这些模型生成对描述常见生活经历的帖子的共情信息,例如职场环境、育儿、人际关系和其他引发焦虑和愤怒的情境。通过两项研究(N=192,202),我们向人类评估者展示了几个模型(GPT4 Turbo、Llama2 和 Mistral)生成的各种回应,并要求他们评估这些回应的共情程度。我们发现 LLM 生成的回应在共情程度上一直被评为比人工撰写的回应更具共情性。语言分析还表明,这些模型在标点符号、表情符号和某些词语的使用方面具有独特、可预测的 “风格”。这些结果凸显了在强调共情的情境中利用 LLMs 提升人类同伴支持的潜力。
Mar, 2024
大型语言模型(LLMs)在医疗领域的整合潜在地可以通过开发具有共情能力,面向患者的聊天机器人,显著增强患者护理和支持。本研究调查了一个有趣的问题:相较于通常由医生提供的,ChatGPT 能否提供更高程度的共情回应?为了回答这个问题,我们从梅奥诊所收集了病人信息和医生回复的去标识化数据集,并使用 ChatGPT 生成了备选回复。我们的分析包括了一种新的共情评级(EMRank)评估方法,评估回复的共情程度,该方法涵盖了自动化指标和人工评估。我们的研究结果表明,由 LLM 驱动的聊天机器人在传递共情沟通方面有超过人类医生的潜力,这为增强患者护理和减少专业倦怠提供了有前景的途径。本研究不仅强调了患者互动中共情的重要性,还提出了一套有效的自动共情评级指标,为 LLM 在医疗领域更广泛的应用铺平了道路。
May, 2024
我们开发了一个评估框架,以确定大型语言模型在自动化心理健康治疗方面是否是可行和道德的前进路径,并通过人工评估和心理学研究的自动质量评估指标,比较了点对点响应者提供的回应与一种最先进的大型语言模型提供的回应。我们展示了像 GPT-4 这样的大型语言模型使用隐式和显式线索推断患者人口统计学特征,然后展示了患者子群之间存在统计上显著差异:对于黑人发帖的回应一直比其他人口统计群体的同一回应具有较低的同理心(比对照组低 2%-13%)。我们发现回应生成的方式显著影响回应的质量。最后,我们提出了大型语言模型在心理健康响应潜在部署中的安全指南。
May, 2024
通过比较基于 LLMs 生成的回应与非基于 LLMs 生成的回应的系统,研究了生成回应对主观评价(如情绪变化、认知变化和对话质量)的影响。结果表明,使用 GPT-4 时,情绪变化、共情和其他对话品质显著改善,说明 GPT-4 具有较高的心理咨询能力。然而,研究还指出,即使使用了人类心理咨询数据集训练的对话模型,与基于情景的对话相比,并不能产生更好的结果。在使用了规则、情景或示例回应的系统中,可以通过人工专业人士提前使用 LLMs 生成示例回应或回应模板的方式呈现基于 LLMs 生成的回应,并且直接与用户在现实的心理健康服务中进行交互,这可能引发一些伦理问题。
Jan, 2024
利用大型语言模型的能力,本研究结合人工智能和人类洞察力创建了一个详尽的情感支持对话数据集,通过递归生成方法,优化了情感支持机器人,为情感支持领域的进一步研究和实施铺平了道路。
Aug, 2023
我们提出了一个新颖的框架来评估大型语言模型(LLMs)的细致对话能力,将其应用于心理健康领域,并发现 GPT4 Turbo 在特定主题上表现出与经过验证的治疗师高度相关的成绩,从而帮助研究人员开发更好的 LLMs 以更积极地支持人们的生活。
Mar, 2024
通过角色扮演情景中,由专家心理咨询师提供咨询对话的数据,标注咨询师的意图,并通过第三方咨询师的评估,发现 GPT-4 生成的回答在咨询对话数据中与人类咨询师的回答具有竞争力。
Feb, 2024
通过使用心理学实践中的认知重评方式,本研究设计出一种具有高级心理能力的大型语言模型,经过专家评估证实,即使是由 RESORT 引导的规模为 7B 的大型语言模型也能够生成能够帮助用户认知重评自身情况的共情回应。
Apr, 2024