EMP-EVAL:一个在开放域对话中评估情感共鸣的框架
本研究提出一种新的端到端的对话系统建模方法--MoEL,能够捕捉用户情感并回复相应的情感,经人类评估显示MoEL在共情、相关性和流畅性方面优于多任务训练基线,并且不同监听器生成的响应的案例研究显示我们的模型具有很高的解释性。
Aug, 2019
本文提出了一种新的基于常识的共情反应生成方法,除了识别用户情感外,还考虑了对用户情况的认知理解,实验结果表明本方法在自动和人工评估中均优于基线模型,能够生成更具信息和共情性的响应。
Sep, 2021
本文提出了一种双重生成模型(Dual-Emp),通过集成前向对话模型、后向对话模型和表示情感共识的离散潜变量来实现情感共识的构建,同时利用来自开放域对话的非成对情感数据,产生了比人类注释更高效且成本更低的伪成对共情样本,进而在自动和人工评估中表现出优异的编织性和共情响应。
Sep, 2021
提出一种新模型EmpHi,用于生成与人类一致的移情回应,以解决现有模型中移情倾向分布的偏差问题,实验结果表明在自动和人类评估方面EmpHi在移情、相关性和多样性方面优于最先进的模型,并且案例研究表明我们的模型具有较高的可解释性和卓越的性能。
Apr, 2022
本研究建立了感同身受情感对话数据集,收集了受访者的特征、新闻文章引发的自我报告的同理心反应、对谈伙伴的他人报告,以及对话中表达的自我披露、情感和同理心等信息,旨在探讨不同形式的同理心与其他情感现象及人口统计学因素之间的关系,提供了预测这些特征的基线模型。
May, 2022
本研究通过五个评估维度研究人们在对话系统中尝试引入共情时所存在的关键点和未来机会,发现用户建模和对用户情感的检测和鉴别是需要进一步研究的核心问题;同时,处理多模式输入,显示更细腻的共情行为,以及包括其他对话系统特征也是需要关注的问题。
May, 2022
提出了一个多维度的共情评估框架,该框架可以测量发言者表达意图以及听众感知到的共情,这两个维度之间存在相互关联,而感知到的共情与对话会话的满意程度有很高的相关性。为了自动测量对话中的共情,进行了不同的建模选项,包括使用预置的大型语言模型和基于序列到序列语言模型的分类器。经过广泛实验,表明使用序列到序列语言模型进行指导微调的分类器相对于之前的研究和竞争基准具有最好的性能。最后,对所提出的分类器的性能进行了全面的消融研究,并提出了将其作为自动对话共情评估指标的建议。
Feb, 2024
我们提出了一种新方法,利用理论驱动的偏好数据集和优化算法来对齐LLMs,以提高情感回应生成的质量和模型的泛化性能,并通过EmpatheticDialogues数据集以及diff-EPITOME和BERTscore指标来评估其效果。
Jun, 2024
本研究解决了现有的同理心对话系统评估方法不足以测量对话中同理品质的问题。提出了一种多维度同理心评估框架,包括结构层面、行为层面和整体层面三种新方法,显著增强了评估过程。实验结果表明,该框架在评估现代同理心对话系统的有效性方面具有潜在影响。
Jul, 2024
本研究解决了基于松散定义的同情心操作化方式所带来的数据集质量和评估可靠性问题。我们提出了一种将同情心评估框架与心理学原理相结合的新方法,通过控制生成的提示中的社会偏见来评估大语言模型(LML)的反应差异。研究发现,虽然初步评估样本中的差异较小,但模型在推理链上有显著的变化,为未来的评估样本构建和结果测量提供了基础。
Nov, 2024