EMP-EVAL:一个在开放域对话中评估情感共鸣的框架
提出了一个多维度的共情评估框架,该框架可以测量发言者表达意图以及听众感知到的共情,这两个维度之间存在相互关联,而感知到的共情与对话会话的满意程度有很高的相关性。为了自动测量对话中的共情,进行了不同的建模选项,包括使用预置的大型语言模型和基于序列到序列语言模型的分类器。经过广泛实验,表明使用序列到序列语言模型进行指导微调的分类器相对于之前的研究和竞争基准具有最好的性能。最后,对所提出的分类器的性能进行了全面的消融研究,并提出了将其作为自动对话共情评估指标的建议。
Feb, 2024
本文旨在引发对于计算共情评估方法的讨论。我们探讨了人类共情的评估方法,并提出了在人工交互系统中评估共情的更好的度量标准。我们承认在庞大的交互系统中达成单一解决方案的困难,并提出了一系列系统化方法。
Aug, 2019
本文提出并评估了一种情感识别标注方案,通过构建自动分割和分类系统,通过调查语言和声学空间中的特征来识别通话中的共情。该系统在呼叫中心对话中表现出明显的优异性能。
May, 2017
本文提出了一个新的共情对话生成指标和一个基于具有情感情境的 25k 个会话的新数据集 EmpatheticDialogues,实验表明使用我们的数据集的对话模型被人类评估员认为比仅在大规模互联网对话数据上训练的模型更具有移情能力,同时还通过实验比较了对情感回应进行的对话模型调整,利用现有模型或数据集而无需重新训练完整模型
Nov, 2018
本研究建立了感同身受情感对话数据集,收集了受访者的特征、新闻文章引发的自我报告的同理心反应、对谈伙伴的他人报告,以及对话中表达的自我披露、情感和同理心等信息,旨在探讨不同形式的同理心与其他情感现象及人口统计学因素之间的关系,提供了预测这些特征的基线模型。
May, 2022
提出基于心理学,对话系统评估的度量标准,包括情感熵、语言风格和情感匹配度、宜人性和共情等 5 个指标。将这些指标与 6 个最先进的自动评价指标进行比较,并使用三种不同模型(ChatGPT、GPT-3 和 BlenderBot)的对话数据集进行实验,结果表明,所提出的人类度量标准不仅提供了新颖的信息,而且与自动度量标准不相关,并且优于现有的自动度量标准在预测众包对话评价方面的准确性。所提出的基于人类中心的框架具有解释性和独特的信号,是评估和改进对话系统的有价值的工具。
May, 2023
我们提出了一种新方法,利用理论驱动的偏好数据集和优化算法来对齐 LLMs,以提高情感回应生成的质量和模型的泛化性能,并通过 EmpatheticDialogues 数据集以及 diff-EPITOME 和 BERTscore 指标来评估其效果。
Jun, 2024
本文提出一种交互式的人工评估对话质量的方法,并介绍了一种基于自我对话的度量方式,该方式可以更好地捕捉对话模型的质量,同时使用了情感和语义连贯性等维度。通过对多个模型的实验比较,研究表明,这种度量方式优于目前已知的所有自动化方法,同时也优于静态会话的人工评估。最后,开放性地共享出研究基于交互式评估所构建的数据集和平台以供其它研究者使用。
Jun, 2019
本文介绍了一种基于计算方法的框架来理解在线心理健康平台上的情感表达,通过收集和共享大量语料来训练 RoBERTa-based bi-encoder 模型,成功识别出含有改善情感的会话,揭示用户无法通过自我学习获得改善情感能力,为情感培训和反馈提供机会。
Sep, 2020
本研究通过五个评估维度研究人们在对话系统中尝试引入共情时所存在的关键点和未来机会,发现用户建模和对用户情感的检测和鉴别是需要进一步研究的核心问题;同时,处理多模式输入,显示更细腻的共情行为,以及包括其他对话系统特征也是需要关注的问题。
May, 2022