探寻 ChatGPT 的共情能力
研究论文通过对 ChatGPT 及其最新版本 GPT-4 与人类生成的情感场景回应能力进行比较,探究了 ChatGPT 在回应不同情绪场景(正面和负面)时的共情水平。研究采用一项涉及 600 名参与者的组间研究来评估 ChatGPT 和人类生成的回应的共情程度。研究发现,ChatGPT 所生成的回应的平均共情评分比人类生成的回应高出约 10%。此外,明确要求 ChatGPT 在回应中融入对共情认知、情感和同情的明确理解,使其回应与具有较高共情度的个体的期望更为接近,相比之下,人类回应的一致性要小 5 倍。该研究提出的评估框架可用于评估较大的语言模型的共情能力,并且具有可扩展性和适应性,避免了未来研究中重复当前研究结果的需要。
Feb, 2024
本研究基于由 OpenAI 研发的先进语言模型 ChatGPT,探讨了其情感对话能力。研究通过一系列下游任务实验,评估了 ChatGPT 在情感对话理解和生成方面的表现,并发现虽然 ChatGPT 在情感对话理解方面的性能仍然存在问题,但在生成情感回应方面表现良好。此外,本研究还提出了未来研究方向的可能性。
Apr, 2023
基于 ChatGPT 模型的广泛研究评估了 GPT-4 和 GPT-3.5 在 13 个影响计算问题上的性能,发现它们在涉及情感、情绪和毒性等问题上表现出色,但在涉及隐性信号的问题上表现较差,如参与度测量和主观性检测。
Aug, 2023
大型语言模型(LLMs)在医疗领域的整合潜在地可以通过开发具有共情能力,面向患者的聊天机器人,显著增强患者护理和支持。本研究调查了一个有趣的问题:相较于通常由医生提供的,ChatGPT 能否提供更高程度的共情回应?为了回答这个问题,我们从梅奥诊所收集了病人信息和医生回复的去标识化数据集,并使用 ChatGPT 生成了备选回复。我们的分析包括了一种新的共情评级(EMRank)评估方法,评估回复的共情程度,该方法涵盖了自动化指标和人工评估。我们的研究结果表明,由 LLM 驱动的聊天机器人在传递共情沟通方面有超过人类医生的潜力,这为增强患者护理和减少专业倦怠提供了有前景的途径。本研究不仅强调了患者互动中共情的重要性,还提出了一套有效的自动共情评级指标,为 LLM 在医疗领域更广泛的应用铺平了道路。
May, 2024
本技术报告探讨了 ChatGPT 在从文本中识别情感方面的能力,这可以作为交互式聊天机器人、数据注释和心理健康分析等各种应用的基础。通过实验证明了 ChatGPT 在情感识别方面具有合理的可重复性,通过微调可以明显提高其性能。然而,性能会随不同的情感标签和数据集而异,突显了固有的不稳定性和潜在的偏差。数据集和情感标签的选择对 ChatGPT 的情感识别性能具有显著影响。本文阐明了数据集和标签选择的重要性,以及通过微调提高 ChatGPT 情感识别能力的潜力,为使用 ChatGPT 的应用程序中更好地整合情感分析奠定了基础。
Oct, 2023
大型语言模型在培养有同理心的对话、构建和谐社会关系以及发展有帮助的人工智能方面具有至关重要的作用。本研究通过实证调查了大型语言模型在生成有同理心的回应方面的性能,并提出了三种改进方法:语义上下文学习、两阶段交互生成和与知识库的结合。广泛的实验证明,我们的方法能够显著改善大型语言模型的性能,在自动评估和人工评估方面达到最先进的水平。此外,我们还探索了 GPT-4 模型模拟人工评估者的可能性。
Oct, 2023
在本文中,我们通过提交 60 个提问并基于三项机器翻译评分标准(BLEU,METEOR 和 ROUGE)对 ChatGPT 的回答进行了分析,结果显示出与人类典型反应相比,ChatGPT 在回复和翻译方面的能力虽然显著,但仍有所欠缺。
Feb, 2023
本文详细评估了 ChatGPT 在 11 个数据集上的心理健康分析和情感推理能力,分析了不同提示策略对其分析能力和可解释性的影响,并发现情感提示可以有效提高其性能,但需要正确的情感注入方式。
Apr, 2023
研究探讨人类和 LLM 生成的对话之间的语言差异,并使用 ChatGPT-3.5 生成的 19.5K 对话作为 EmpathicDialogues 数据集的补充。研究使用了语言查询和词频统计(LIWC)分析,在 118 个语言类别上比较 ChatGPT 生成的对话和人类对话。结果显示人类对话在可变性和真实性方面更出色,但 ChatGPT 在社交过程、分析风格、认知、注意力焦点和积极情绪方面表现优异,加强了 LLM “更接近人类” 的最新发现。然而,在正面或负面情感方面,ChatGPT 和人类对话之间没有显著差异。对话嵌入的分类器分析表明,尽管对话中未明确提及情感,但存在着情感价值的隐式编码。该研究还提供了一个新颖的 ChatGPT 生成的对话数据集,其中包含两个独立的聊天机器人之间的对话,这些对话旨在复制一个开放可访问的人类对话语料库,广泛应用于语言建模的 AI 研究。我们的研究结果增加了对 ChatGPT 的语言能力的理解,并为区分人类和 LLM 生成的文本的持续努力提供了信息,这对于检测由 AI 生成的虚假信息、错误信息和误导信息至关重要。
Jan, 2024
通过对捷克民众自我评估数据的分析,本研究探讨了一个通用聊天机器人 ChatGPT 在从短文本中有效推测个性特质方面的能力,结果显示其在人格特质推测方面与人类评估者具有竞争力,并揭示了 ChatGPT 在所有人格维度上存在的 ' 积极偏差 ',同时探讨了提示内容对其准确度的影响,从而对人格评估中人工智能的潜力和局限性进行了重要贡献。本研究强调了负责任的人工智能发展的重要性,并考虑了隐私、同意、自主权和人工智能应用中的偏见等伦理问题。
Dec, 2023