大型语言模型是否比人类更具移情能力?
本研究评估了大型语言模型(LLMs)的情感智能,特别关注情感理解,通过心理测量评估实现,发现大部分LLMs的情商高于人类平均水平并超过了某些特定质量以人为中心的模型,同时探讨了模型大小、训练方法和架构等因素对LLMs情感智能的影响。
Jul, 2023
利用心理学中的情感评估理论,我们提出了一种评估大型语言模型(LLMs)的同理心能力的方法,通过在具体情境中观察其感受变化。我们收集了超过400个情境,根据8种情绪将其分成36个因素,并进行了包含超过1200名全球参与者的人工评价实验。研究结果显示,尽管存在一些偏差,LLMs总体能够适当地对特定情况做出反应,但仍然无法与人类的情绪行为建立联系。我们公开了情境数据集、人工评估结果以及我们的测试框架EmotionBench的代码,旨在提高LLMs在与人类情绪行为的对齐方面的应用价值和实用性。
Aug, 2023
大型语言模型在培养有同理心的对话、构建和谐社会关系以及发展有帮助的人工智能方面具有至关重要的作用。本研究通过实证调查了大型语言模型在生成有同理心的回应方面的性能,并提出了三种改进方法:语义上下文学习、两阶段交互生成和与知识库的结合。广泛的实验证明,我们的方法能够显著改善大型语言模型的性能,在自动评估和人工评估方面达到最先进的水平。此外,我们还探索了 GPT-4 模型模拟人工评估者的可能性。
Oct, 2023
本研究通过比较五款大型语言模型(LLMs)生成的相应和传统对话系统及人工生成的相应,发现LLMs在大多数情景中表现出更高的同理心,从而探索并验证LLMs在模拟心理咨询对话中生成同理心回应的能力。
Oct, 2023
研究论文通过对ChatGPT及其最新版本GPT-4与人类生成的情感场景回应能力进行比较,探究了ChatGPT在回应不同情绪场景(正面和负面)时的共情水平。研究采用一项涉及600名参与者的组间研究来评估ChatGPT和人类生成的回应的共情程度。研究发现,ChatGPT所生成的回应的平均共情评分比人类生成的回应高出约10%。此外,明确要求ChatGPT在回应中融入对共情认知、情感和同情的明确理解,使其回应与具有较高共情度的个体的期望更为接近,相比之下,人类回应的一致性要小5倍。该研究提出的评估框架可用于评估较大的语言模型的共情能力,并且具有可扩展性和适应性,避免了未来研究中重复当前研究结果的需要。
Feb, 2024
大型语言模型(LLMs)在许多任务中表现出了令人惊讶的性能,包括撰写表达共情的支持性信息。我们在这里让这些模型生成对描述常见生活经历的帖子的共情信息,例如职场环境、育儿、人际关系和其他引发焦虑和愤怒的情境。通过两项研究(N=192,202),我们向人类评估者展示了几个模型(GPT4 Turbo、Llama2和Mistral)生成的各种回应,并要求他们评估这些回应的共情程度。我们发现LLM生成的回应在共情程度上一直被评为比人工撰写的回应更具共情性。语言分析还表明,这些模型在标点符号、表情符号和某些词语的使用方面具有独特、可预测的“风格”。这些结果凸显了在强调共情的情境中利用LLMs提升人类同伴支持的潜力。
Mar, 2024
大型语言模型(LLMs)在医疗领域的整合潜在地可以通过开发具有共情能力,面向患者的聊天机器人,显著增强患者护理和支持。本研究调查了一个有趣的问题:相较于通常由医生提供的,ChatGPT能否提供更高程度的共情回应?为了回答这个问题,我们从梅奥诊所收集了病人信息和医生回复的去标识化数据集,并使用ChatGPT生成了备选回复。我们的分析包括了一种新的共情评级(EMRank)评估方法,评估回复的共情程度,该方法涵盖了自动化指标和人工评估。我们的研究结果表明,由LLM驱动的聊天机器人在传递共情沟通方面有超过人类医生的潜力,这为增强患者护理和减少专业倦怠提供了有前景的途径。本研究不仅强调了患者互动中共情的重要性,还提出了一套有效的自动共情评级指标,为LLM在医疗领域更广泛的应用铺平了道路。
May, 2024
本研究解决了同理心数据集不足和人工标注劳动浪费的问题,提出了一种基于大语言模型的合成同理心数据生成与质量选择管道Synth-Empathy。该方法自动生成高质量的同理心数据,并在多个基准测试中实现了最新的性能,展现了其在实际应用中的有效性和鲁棒性。
Jul, 2024
本研究解决了同理心数据不足和人工标签浪费的问题,提出了一种基于大型语言模型的合成同理心数据生成和筛选方法Synth-Empathy。这一方法有助于自动生成高质量同理心数据,进一步提升同理心响应性能,且在多项评估基准上达到最新的优越表现,展示了其在实际应用中的有效性和鲁棒性。
Jul, 2024
本研究针对现有情感分析研究不足以全面评估大型语言模型(LLM)情感智能的问题,提出了一个名为“情感女王”的新框架。该框架通过四个独特任务评估LLM的情感智能,并设计了两项评估指标来衡量其在情感识别和回应能力上的表现。实验结果显著揭示了LLM在情感智能方面的能力和局限性。
Sep, 2024