多维度同理心对话系统评估框架的构建
本文提出了一种多因素分层框架CoMAE,用于模拟情感应答生成功能,实验表明,我们的模型比之前的方法表现更好,分层建模不同因素的重要性也得到了验证。
May, 2021
本研究建立了感同身受情感对话数据集,收集了受访者的特征、新闻文章引发的自我报告的同理心反应、对谈伙伴的他人报告,以及对话中表达的自我披露、情感和同理心等信息,旨在探讨不同形式的同理心与其他情感现象及人口统计学因素之间的关系,提供了预测这些特征的基线模型。
May, 2022
本研究通过五个评估维度研究人们在对话系统中尝试引入共情时所存在的关键点和未来机会,发现用户建模和对用户情感的检测和鉴别是需要进一步研究的核心问题;同时,处理多模式输入,显示更细腻的共情行为,以及包括其他对话系统特征也是需要关注的问题。
May, 2022
本文提出了一种名为EMP-EVAL的自动衡量共情的方法,该方法结合了情感、认知和情感共情,能够减少人工评估的需求并且与人类判断具有可比性。实验结果表明,我们的指标可以与人类喜好相关联。
Jan, 2023
大型语言模型在培养有同理心的对话、构建和谐社会关系以及发展有帮助的人工智能方面具有至关重要的作用。本研究通过实证调查了大型语言模型在生成有同理心的回应方面的性能,并提出了三种改进方法:语义上下文学习、两阶段交互生成和与知识库的结合。广泛的实验证明,我们的方法能够显著改善大型语言模型的性能,在自动评估和人工评估方面达到最先进的水平。此外,我们还探索了 GPT-4 模型模拟人工评估者的可能性。
Oct, 2023
提出了一个多维度的共情评估框架,该框架可以测量发言者表达意图以及听众感知到的共情,这两个维度之间存在相互关联,而感知到的共情与对话会话的满意程度有很高的相关性。为了自动测量对话中的共情,进行了不同的建模选项,包括使用预置的大型语言模型和基于序列到序列语言模型的分类器。经过广泛实验,表明使用序列到序列语言模型进行指导微调的分类器相对于之前的研究和竞争基准具有最好的性能。最后,对所提出的分类器的性能进行了全面的消融研究,并提出了将其作为自动对话共情评估指标的建议。
Feb, 2024
研究论文通过对ChatGPT及其最新版本GPT-4与人类生成的情感场景回应能力进行比较,探究了ChatGPT在回应不同情绪场景(正面和负面)时的共情水平。研究采用一项涉及600名参与者的组间研究来评估ChatGPT和人类生成的回应的共情程度。研究发现,ChatGPT所生成的回应的平均共情评分比人类生成的回应高出约10%。此外,明确要求ChatGPT在回应中融入对共情认知、情感和同情的明确理解,使其回应与具有较高共情度的个体的期望更为接近,相比之下,人类回应的一致性要小5倍。该研究提出的评估框架可用于评估较大的语言模型的共情能力,并且具有可扩展性和适应性,避免了未来研究中重复当前研究结果的需要。
Feb, 2024
通过计算实验,我们向你介绍了一种基于评价理论的识别共情言语中对齐过程的新方法,并证明了这些评价和对齐可以被准确地识别。在超过9.2M的Reddit会话实验中,我们发现评价能够捕捉行为的有意义的分组,但大多数回应的对齐程度很小。然而,我们发现心理健康专业人士在共情对齐方面参与得更多。
May, 2024
本研究通过与人类基准对比的方式,综合评估了四个最先进的大型语言模型(GPT-4、LLaMA-2、Mixtral-8x7B 和 Gemini-Pro)在共 2000 个情感对话提示中的回应中的移情能力。我们的发现显示,大型语言模型在移情回应能力上显著超过人类,其中 GPT-4 的回应被评为“好”的比例比人类基准提高了约 31%。此外,我们发现不同的大型语言模型在回应不同情感时表现显著不同。基于研究结果,我们提出了一种可扩展和可适应的评估框架,用于评估新大型语言模型的移情能力,避免了未来研究中重复这项研究的需求。
Jun, 2024
本研究解决了基于松散定义的同情心操作化方式所带来的数据集质量和评估可靠性问题。我们提出了一种将同情心评估框架与心理学原理相结合的新方法,通过控制生成的提示中的社会偏见来评估大语言模型(LML)的反应差异。研究发现,虽然初步评估样本中的差异较小,但模型在推理链上有显著的变化,为未来的评估样本构建和结果测量提供了基础。
Nov, 2024