SoulChat: 通过微调多轮同理心对话,提升LLMs的同理心、倾听和安慰能力
利用心理学中的情感评估理论,我们提出了一种评估大型语言模型(LLMs)的同理心能力的方法,通过在具体情境中观察其感受变化。我们收集了超过400个情境,根据8种情绪将其分成36个因素,并进行了包含超过1200名全球参与者的人工评价实验。研究结果显示,尽管存在一些偏差,LLMs总体能够适当地对特定情况做出反应,但仍然无法与人类的情绪行为建立联系。我们公开了情境数据集、人工评估结果以及我们的测试框架EmotionBench的代码,旨在提高LLMs在与人类情绪行为的对齐方面的应用价值和实用性。
Aug, 2023
利用大型语言模型的能力,本研究结合人工智能和人类洞察力创建了一个详尽的情感支持对话数据集,通过递归生成方法,优化了情感支持机器人,为情感支持领域的进一步研究和实施铺平了道路。
Aug, 2023
大型语言模型在培养有同理心的对话、构建和谐社会关系以及发展有帮助的人工智能方面具有至关重要的作用。本研究通过实证调查了大型语言模型在生成有同理心的回应方面的性能,并提出了三种改进方法:语义上下文学习、两阶段交互生成和与知识库的结合。广泛的实验证明,我们的方法能够显著改善大型语言模型的性能,在自动评估和人工评估方面达到最先进的水平。此外,我们还探索了 GPT-4 模型模拟人工评估者的可能性。
Oct, 2023
本研究通过比较五款大型语言模型(LLMs)生成的相应和传统对话系统及人工生成的相应,发现LLMs在大多数情景中表现出更高的同理心,从而探索并验证LLMs在模拟心理咨询对话中生成同理心回应的能力。
Oct, 2023
这项研究主要探讨了大型语言模型(LLMs)在与高功能自闭症青少年进行互动语言治疗中的效果。通过评估LLM在治疗环境中参与共情、适应性和情境适当性交互的能力,研究结果表明LLM在支持性治疗工具方面具有巨大潜力,显示出在情感共鸣和对话适应性方面的优势,但也指出实现人类治疗师所具备个性化和情感理解深度的挑战,强调了应用人工智能于治疗环境中的伦理考虑的重要性。该研究为利用LLM进行自闭症青少年心理咨询提供了有价值的洞察力,并强调了在心理健康护理中探索人工智能作用的未来需要持续发展以增强这些模型在治疗环境中的能力的必要性。
Nov, 2023
大型语言模型(LLMs)在许多任务中表现出了令人惊讶的性能,包括撰写表达共情的支持性信息。我们在这里让这些模型生成对描述常见生活经历的帖子的共情信息,例如职场环境、育儿、人际关系和其他引发焦虑和愤怒的情境。通过两项研究(N=192,202),我们向人类评估者展示了几个模型(GPT4 Turbo、Llama2和Mistral)生成的各种回应,并要求他们评估这些回应的共情程度。我们发现LLM生成的回应在共情程度上一直被评为比人工撰写的回应更具共情性。语言分析还表明,这些模型在标点符号、表情符号和某些词语的使用方面具有独特、可预测的“风格”。这些结果凸显了在强调共情的情境中利用LLMs提升人类同伴支持的潜力。
Mar, 2024
通过将生理数据与大型语言模型(LLMs)相结合,探索增强共情的方法。我们提出了一种生理计算方法,包括开发利用生理数据识别心理状态的深度学习模型,并将预测的状态与LLMs集成以进行共情交互。我们展示了这种方法在一个基于共情LLM聊天机器人用于压力监测和控制的应用。我们还讨论了一项副研究的结果,评估该EmLLM聊天机器人准确预测用户压力、提供类人回应以及评估与用户的治疗联盟的能力。
Apr, 2024
大型语言模型(LLMs)在医疗领域的整合潜在地可以通过开发具有共情能力,面向患者的聊天机器人,显著增强患者护理和支持。本研究调查了一个有趣的问题:相较于通常由医生提供的,ChatGPT能否提供更高程度的共情回应?为了回答这个问题,我们从梅奥诊所收集了病人信息和医生回复的去标识化数据集,并使用ChatGPT生成了备选回复。我们的分析包括了一种新的共情评级(EMRank)评估方法,评估回复的共情程度,该方法涵盖了自动化指标和人工评估。我们的研究结果表明,由LLM驱动的聊天机器人在传递共情沟通方面有超过人类医生的潜力,这为增强患者护理和减少专业倦怠提供了有前景的途径。本研究不仅强调了患者互动中共情的重要性,还提出了一套有效的自动共情评级指标,为LLM在医疗领域更广泛的应用铺平了道路。
May, 2024
本研究通过与人类基准对比的方式,综合评估了四个最先进的大型语言模型(GPT-4、LLaMA-2、Mixtral-8x7B 和 Gemini-Pro)在共 2000 个情感对话提示中的回应中的移情能力。我们的发现显示,大型语言模型在移情回应能力上显著超过人类,其中 GPT-4 的回应被评为“好”的比例比人类基准提高了约 31%。此外,我们发现不同的大型语言模型在回应不同情感时表现显著不同。基于研究结果,我们提出了一种可扩展和可适应的评估框架,用于评估新大型语言模型的移情能力,避免了未来研究中重复这项研究的需求。
Jun, 2024
通过fine-tuning和真实对话,我们提出了一种具有共情和主动指导特性的心理健康大型语言模型WundtGPT,以协助心理学家在诊断中提问和症状详述的引导以及情感上的温暖安抚。
Jun, 2024