EnDex: 大规模对话参与度评估

Oct, 2022

EnDex: Evaluation of Dialogue Engagingness at Scale

Guangxuan Xu, Ruibo Liu, Fabrice Harel-Canada, Nischal Reddy Chandra, Nanyun Peng

TL;DREnDex是第一个基于人类反应的模型，用于评估对话的吸引力，该模型基于新颖的远程监督框架训练，以Reddit Engagement Dataset为基础，并通过理论基础和实证证据支持其鲁棒性。

Abstract

We propose endex, the first human-reaction based model to evaluate dialogue engagingness. endex is trained on 80k Reddit-based

发现论文，激发创造

如何不评估您的对话系统：对话响应生成任务无监督评估指标的实证研究

本文研究对话响应生成系统的评估指标，其中没有可用的监督标签。最近，对话响应生成的研究采用了机器翻译的指标来比较模型生成的响应和单个目标响应。我们展示了这些指标与非技术Twitter领域中的人类判断之间的关系非常弱，而在技术Ubuntu领域中根本没有。我们提供了定量和定性结果，突出了现有指标的特定弱点，并提供了未来开发更好的自动评估指标的建议。

Mar, 2016

迈向自动图灵测试：学习对话响应评估

提出 ADEM 模型用于对话质量的学习式自动评估，其比基于词汇重叠的 BLEU 更能与人类评估相匹配，同时具有泛化评估不同模型的能力。

Aug, 2017

更了解你或许使我成为更好的对话伙伴

探索一种新的方向，即代理人专门集中于发现与其对话者有关的信息，定义了一个定量度量标准，提出了一个代理算法来最大化它，并用人工评估验证了这个想法，在这个过程中我们的系统优于各种基线，并且证明了它的指标确实与人类活跃度的评价相关。

Aug, 2018

基于用户满意度评估的领域无关的对话质量评估

该研究提出了一种新的Response Quality标注方案，基于此开发了一种新的以轮为单位的用户满意度量。使用五个新的与领域无关的特征集和六种机器学习模型来估算新的满意度量，方法显著提高了模型性能和泛化能力。

Aug, 2019

预测性参与度：评估开放域对话系统的有效指标

该论文研究了基于用户参与度的智能对话系统的质量评估方法，提出了新的自动评估指标——预测性参与度，并证明了预测性参与度可以用作实时反馈来改进对话模型。

Nov, 2019

自动对话系统评估：一种无模型离线策略评估方法

提出了一种名为ENIGMA的自动对话系统评估框架，该框架基于策略评估的最新进展，并且相较于现有的自动评估方法有更强的人类评估得分相关性。

Feb, 2021

对话系统归因的评估: BEGIN基准测试

该研究提出了用于评估基于知识的对话系统质量的BEGIN基准，该基准由12k条对话数据组成，评估了8个评估指标，结果发现这些指标过度依赖并不可靠，在长文本下表现更差，说明需要更加精细和强健的评估指标。

Apr, 2021

对话不是平面的：建模对话内容中动态信息流

本文提出了DialoFlow模型，引入了动态流机制来模拟上下文的流动，并设计3个训练目标来捕捉大规模预训练中每个话语带来的语义影响，实验表明，DialoFlow在对话生成任务中优于DialoGPT。我们还提出Flow评分，这是一种有效的自动度量，用于评估基于预训练DialoFlow的交互式人机对话质量，与11个聊天机器人中的人类评分呈高聊天机器人级别的相关性（ $r=0.9$）。

Jun, 2021

面向人的对话系统评估指标

提出基于心理学，对话系统评估的度量标准，包括情感熵、语言风格和情感匹配度、宜人性和共情等 5 个指标。将这些指标与 6 个最先进的自动评价指标进行比较，并使用三种不同模型（ChatGPT、GPT-3 和 BlenderBot）的对话数据集进行实验，结果表明，所提出的人类度量标准不仅提供了新颖的信息，而且与自动度量标准不相关，并且优于现有的自动度量标准在预测众包对话评价方面的准确性。所提出的基于人类中心的框架具有解释性和独特的信号，是评估和改进对话系统的有价值的工具。

May, 2023

DiQAD: 一个用于端到端开放域对话评估的基准数据集

发布了一个新的大规模对话质量评估数据集（DiQAD），用于自动评估开放域对话质量。

Oct, 2023