Feb, 2024

共情对话回复的多维度评估

TL;DR提出了一个多维度的共情评估框架,该框架可以测量发言者表达意图以及听众感知到的共情,这两个维度之间存在相互关联,而感知到的共情与对话会话的满意程度有很高的相关性。为了自动测量对话中的共情,进行了不同的建模选项,包括使用预置的大型语言模型和基于序列到序列语言模型的分类器。经过广泛实验,表明使用序列到序列语言模型进行指导微调的分类器相对于之前的研究和竞争基准具有最好的性能。最后,对所提出的分类器的性能进行了全面的消融研究,并提出了将其作为自动对话共情评估指标的建议。