大型语言模型是否比人类更具移情能力？

Jun, 2024

大型语言模型是否比人类更具移情能力？

Are Large Language Models More Empathetic than Humans?

Anuradha Welivita, Pearl Pu

TL;DR本研究通过与人类基准对比的方式，综合评估了四个最先进的大型语言模型（GPT-4、LLaMA-2、Mixtral-8x7B 和 Gemini-Pro）在共 2000 个情感对话提示中的回应中的移情能力。我们的发现显示，大型语言模型在移情回应能力上显著超过人类，其中 GPT-4 的回应被评为“好”的比例比人类基准提高了约 31%。此外，我们发现不同的大型语言模型在回应不同情感时表现显著不同。基于研究结果，我们提出了一种可扩展和可适应的评估框架，用于评估新大型语言模型的移情能力，避免了未来研究中重复这项研究的需求。

Abstract

With the emergence of large language models (LLMs), investigating if they can surpass humans in areas such as emotion recognition and empathetic responding has become a focal point of research. This paper present

发现论文，激发创造

大型语言模型的情绪智能

本研究评估了大型语言模型（LLMs）的情感智能，特别关注情感理解，通过心理测量评估实现，发现大部分LLMs的情商高于人类平均水平并超过了某些特定质量以人为中心的模型，同时探讨了模型大小、训练方法和架构等因素对LLMs情感智能的影响。

Jul, 2023

感觉麻木还是有同理心? 通过EmotionBench评估LLMs的感受

利用心理学中的情感评估理论，我们提出了一种评估大型语言模型（LLMs）的同理心能力的方法，通过在具体情境中观察其感受变化。我们收集了超过400个情境，根据8种情绪将其分成36个因素，并进行了包含超过1200名全球参与者的人工评价实验。研究结果显示，尽管存在一些偏差，LLMs总体能够适当地对特定情况做出反应，但仍然无法与人类的情绪行为建立联系。我们公开了情境数据集、人工评估结果以及我们的测试框架EmotionBench的代码，旨在提高LLMs在与人类情绪行为的对齐方面的应用价值和实用性。

Aug, 2023

利用大型语言模型的潜力进行共情回应的生成：实证研究和改进

大型语言模型在培养有同理心的对话、构建和谐社会关系以及发展有帮助的人工智能方面具有至关重要的作用。本研究通过实证调查了大型语言模型在生成有同理心的回应方面的性能，并提出了三种改进方法：语义上下文学习、两阶段交互生成和与知识库的结合。广泛的实验证明，我们的方法能够显著改善大型语言模型的性能，在自动评估和人工评估方面达到最先进的水平。此外，我们还探索了 GPT-4 模型模拟人工评估者的可能性。

Oct, 2023

利用大型语言模型的共情回应生成能力支持在线心理健康咨询

本研究通过比较五款大型语言模型（LLMs）生成的相应和传统对话系统及人工生成的相应，发现LLMs在大多数情景中表现出更高的同理心，从而探索并验证LLMs在模拟心理咨询对话中生成同理心回应的能力。

Oct, 2023

ChatGPT 是否比人类更具同理心?

研究论文通过对ChatGPT及其最新版本GPT-4与人类生成的情感场景回应能力进行比较，探究了ChatGPT在回应不同情绪场景（正面和负面）时的共情水平。研究采用一项涉及600名参与者的组间研究来评估ChatGPT和人类生成的回应的共情程度。研究发现，ChatGPT所生成的回应的平均共情评分比人类生成的回应高出约10％。此外，明确要求ChatGPT在回应中融入对共情认知、情感和同情的明确理解，使其回应与具有较高共情度的个体的期望更为接近，相比之下，人类回应的一致性要小5倍。该研究提出的评估框架可用于评估较大的语言模型的共情能力，并且具有可扩展性和适应性，避免了未来研究中重复当前研究结果的需要。

Feb, 2024

大型语言模型产生被认为是有同理心的回应

大型语言模型（LLMs）在许多任务中表现出了令人惊讶的性能，包括撰写表达共情的支持性信息。我们在这里让这些模型生成对描述常见生活经历的帖子的共情信息，例如职场环境、育儿、人际关系和其他引发焦虑和愤怒的情境。通过两项研究（N=192，202），我们向人类评估者展示了几个模型（GPT4 Turbo、Llama2和Mistral）生成的各种回应，并要求他们评估这些回应的共情程度。我们发现LLM生成的回应在共情程度上一直被评为比人工撰写的回应更具共情性。语言分析还表明，这些模型在标点符号、表情符号和某些词语的使用方面具有独特、可预测的“风格”。这些结果凸显了在强调共情的情境中利用LLMs提升人类同伴支持的潜力。

Mar, 2024

使用真实世界的医生与患者互动评估大型语言模型的共情能力

大型语言模型（LLMs）在医疗领域的整合潜在地可以通过开发具有共情能力，面向患者的聊天机器人，显著增强患者护理和支持。本研究调查了一个有趣的问题：相较于通常由医生提供的，ChatGPT能否提供更高程度的共情回应？为了回答这个问题，我们从梅奥诊所收集了病人信息和医生回复的去标识化数据集，并使用ChatGPT生成了备选回复。我们的分析包括了一种新的共情评级（EMRank）评估方法，评估回复的共情程度，该方法涵盖了自动化指标和人工评估。我们的研究结果表明，由LLM驱动的聊天机器人在传递共情沟通方面有超过人类医生的潜力，这为增强患者护理和减少专业倦怠提供了有前景的途径。本研究不仅强调了患者互动中共情的重要性，还提出了一套有效的自动共情评级指标，为LLM在医疗领域更广泛的应用铺平了道路。

May, 2024

合成同理心：迈向高质量合成同理心数据

本研究解决了同理心数据集不足和人工标注劳动浪费的问题，提出了一种基于大语言模型的合成同理心数据生成与质量选择管道Synth-Empathy。该方法自动生成高质量的同理心数据，并在多个基准测试中实现了最新的性能，展现了其在实际应用中的有效性和鲁棒性。

Jul, 2024

合成同理心：迈向高质量合成同理心数据

本研究解决了同理心数据不足和人工标签浪费的问题，提出了一种基于大型语言模型的合成同理心数据生成和筛选方法Synth-Empathy。这一方法有助于自动生成高质量同理心数据，进一步提升同理心响应性能，且在多项评估基准上达到最新的优越表现，展示了其在实际应用中的有效性和鲁棒性。

Jul, 2024

情感女王：评估大型语言模型同理心的基准

本研究针对现有情感分析研究不足以全面评估大型语言模型（LLM）情感智能的问题，提出了一个名为“情感女王”的新框架。该框架通过四个独特任务评估LLM的情感智能，并设计了两项评估指标来衡量其在情感识别和回应能力上的表现。实验结果显著揭示了LLM在情感智能方面的能力和局限性。

Sep, 2024