共情对话回复的多维度评估

Feb, 2024

Multi-dimensional Evaluation of Empathetic Dialog Responses

Zhichao Xu, Jiepu Jiang

TL;DR提出了一个多维度的共情评估框架，该框架可以测量发言者表达意图以及听众感知到的共情，这两个维度之间存在相互关联，而感知到的共情与对话会话的满意程度有很高的相关性。为了自动测量对话中的共情，进行了不同的建模选项，包括使用预置的大型语言模型和基于序列到序列语言模型的分类器。经过广泛实验，表明使用序列到序列语言模型进行指导微调的分类器相对于之前的研究和竞争基准具有最好的性能。最后，对所提出的分类器的性能进行了全面的消融研究，并提出了将其作为自动对话共情评估指标的建议。

Abstract

empathy is a critical element of effective and satisfactory conversational communication, yet previous studies in measuring conversational empathy mostly focus on expressed communicative intents -- in which way <

发现论文，激发创造

人类社交对话中共情回应意图的分类

该研究提出一种使用对话意图建模和情感分类的混合方法来提高对话生成系统的响应质量和可控性, 并采用信息可视化方法分析人类开放域对话中的情感模式和情感分类。

Dec, 2020

移情对话: 上下文对话的多层数据集

本研究建立了感同身受情感对话数据集，收集了受访者的特征、新闻文章引发的自我报告的同理心反应、对谈伙伴的他人报告，以及对话中表达的自我披露、情感和同理心等信息，旨在探讨不同形式的同理心与其他情感现象及人口统计学因素之间的关系，提供了预测这些特征的基线模型。

May, 2022

共情式对话系统：现有进展、差距和机遇综述

本研究通过五个评估维度研究人们在对话系统中尝试引入共情时所存在的关键点和未来机会，发现用户建模和对用户情感的检测和鉴别是需要进一步研究的核心问题；同时，处理多模式输入，显示更细腻的共情行为，以及包括其他对话系统特征也是需要关注的问题。

May, 2022

EMP-EVAL：一个在开放域对话中评估情感共鸣的框架

本文提出了一种名为EMP-EVAL的自动衡量共情的方法，该方法结合了情感、认知和情感共情，能够减少人工评估的需求并且与人类判断具有可比性。实验结果表明，我们的指标可以与人类喜好相关联。

Jan, 2023

利用情感回应意图分类控制和解释神经聊天机器人中的共情

本文提出一种利用八种共情响应意图的分类法来控制和解释聊天机器人的共情响应能力的方案：该方案包括两个模块，一个是响应情感/意图预测模块，另一个是响应生成模块。研究结果表明，该方案可以生成比端到端模型更多样化且更具共情的响应。

May, 2023

利用大型语言模型的潜力进行共情回应的生成：实证研究和改进

大型语言模型在培养有同理心的对话、构建和谐社会关系以及发展有帮助的人工智能方面具有至关重要的作用。本研究通过实证调查了大型语言模型在生成有同理心的回应方面的性能，并提出了三种改进方法：语义上下文学习、两阶段交互生成和与知识库的结合。广泛的实验证明，我们的方法能够显著改善大型语言模型的性能，在自动评估和人工评估方面达到最先进的水平。此外，我们还探索了 GPT-4 模型模拟人工评估者的可能性。

Oct, 2023

建模对话中的共情调和

通过计算实验，我们向你介绍了一种基于评价理论的识别共情言语中对齐过程的新方法，并证明了这些评价和对齐可以被准确地识别。在超过9.2M的Reddit会话实验中，我们发现评价能够捕捉行为的有意义的分组，但大多数回应的对齐程度很小。然而，我们发现心理健康专业人士在共情对齐方面参与得更多。

May, 2024

大型语言模型是否比人类更具移情能力？

本研究通过与人类基准对比的方式，综合评估了四个最先进的大型语言模型（GPT-4、LLaMA-2、Mixtral-8x7B 和 Gemini-Pro）在共 2000 个情感对话提示中的回应中的移情能力。我们的发现显示，大型语言模型在移情回应能力上显著超过人类，其中 GPT-4 的回应被评为“好”的比例比人类基准提高了约 31%。此外，我们发现不同的大型语言模型在回应不同情感时表现显著不同。基于研究结果，我们提出了一种可扩展和可适应的评估框架，用于评估新大型语言模型的移情能力，避免了未来研究中重复这项研究的需求。

Jun, 2024

WASSA 2024 共情和人格共享任务中的ConText：基于历史依赖的嵌入式话语表示对话中的共情和情感预测

在这篇研究论文中，我们通过将对话的发言与上下文输入到一个预训练的语言模型编码器，并附加一个回归头进行预测，来对每个发言进行情感、情绪极性和情绪强度的建模。此外，我们还通过将对话中的所有发言和一个标识相应发言者的标记输入进行预测，对各个参与者的对方人的共情进行建模。我们的系统在CONV-turn任务中排名第1，CONV-dialog任务中排名第2。

Jul, 2024

多维度同理心对话系统评估框架的构建

本研究解决了现有的同理心对话系统评估方法不足以测量对话中同理品质的问题。提出了一种多维度同理心评估框架，包括结构层面、行为层面和整体层面三种新方法，显著增强了评估过程。实验结果表明，该框架在评估现代同理心对话系统的有效性方面具有潜在影响。

Jul, 2024