EnDex: 大规模对话参与度评估
本文研究对话响应生成系统的评估指标,其中没有可用的监督标签。最近,对话响应生成的研究采用了机器翻译的指标来比较模型生成的响应和单个目标响应。我们展示了这些指标与非技术Twitter领域中的人类判断之间的关系非常弱,而在技术Ubuntu领域中根本没有。我们提供了定量和定性结果,突出了现有指标的特定弱点,并提供了未来开发更好的自动评估指标的建议。
Mar, 2016
探索一种新的方向,即代理人专门集中于发现与其对话者有关的信息,定义了一个定量度量标准,提出了一个代理算法来最大化它,并用人工评估验证了这个想法,在这个过程中我们的系统优于各种基线,并且证明了它的指标确实与人类活跃度的评价相关。
Aug, 2018
该研究提出了一种新的Response Quality标注方案,基于此开发了一种新的以轮为单位的用户满意度量。使用五个新的与领域无关的特征集和六种机器学习模型来估算新的满意度量,方法显著提高了模型性能和泛化能力。
Aug, 2019
该论文研究了基于用户参与度的智能对话系统的质量评估方法,提出了新的自动评估指标——预测性参与度,并证明了预测性参与度可以用作实时反馈来改进对话模型。
Nov, 2019
该研究提出了用于评估基于知识的对话系统质量的BEGIN基准,该基准由12k条对话数据组成,评估了8个评估指标,结果发现这些指标过度依赖并不可靠,在长文本下表现更差,说明需要更加精细和强健的评估指标。
Apr, 2021
本文提出了DialoFlow模型,引入了动态流机制来模拟上下文的流动,并设计3个训练目标来捕捉大规模预训练中每个话语带来的语义影响,实验表明,DialoFlow在对话生成任务中优于DialoGPT。我们还提出Flow评分,这是一种有效的自动度量,用于评估基于预训练DialoFlow的交互式人机对话质量,与11个聊天机器人中的人类评分呈高聊天机器人级别的相关性( $r=0.9$)。
Jun, 2021
提出基于心理学,对话系统评估的度量标准,包括情感熵、语言风格和情感匹配度、宜人性和共情等 5 个指标。将这些指标与 6 个最先进的自动评价指标进行比较,并使用三种不同模型(ChatGPT、GPT-3 和 BlenderBot)的对话数据集进行实验,结果表明,所提出的人类度量标准不仅提供了新颖的信息,而且与自动度量标准不相关,并且优于现有的自动度量标准在预测众包对话评价方面的准确性。所提出的基于人类中心的框架具有解释性和独特的信号,是评估和改进对话系统的有价值的工具。
May, 2023