DialoGPT 对话交互的无监督评估

Jun, 2020

Unsupervised Evaluation of Interactive Dialog with DialoGPT

Shikib Mehri, Maxine Eskenazi

TL;DR本文介绍了 FED 度量（对话的细粒度评估），该度量使用 DialoGPT，不需要微调或监督，以及 FED 数据集，称为人机和人人对话的十八个细粒度对话质量的注释构成。FED 度量不依赖于真实回答，不需要训练数据，并且在回合和整个对话水平上测量细粒度对话质量。FED 在两个级别上与人类判断具有中度到强度的相关性。

Abstract

It is important to define meaningful and interpretable automatic evaluation metrics for open-domain dialog research. Standard language generation metrics have been shown to be ineffective for dialog. This paper introduces the FED metric (fine-grained evaluation of dialog), an

open-domain dialog research automatic evaluation metric dialogpt fed dataset fine-grained dialog qualities

发现论文，激发创造

FineD-Eval: 细颗粒自动对话级别评估

本文介绍了一种基于多维度的对话级度量方法，由三个子度量组成，对每个子度量使用新颖的自监督方法进行训练，通过指标组合和多任务学习的方式，综合度量显著优于单一子度量。

Oct, 2022

GRADE：用于评估开放域对话系统的自动图形增强相关性度量

本论文提出了一种新的评估指标 GRADE，通过考虑话题转移的动态和话题层面的图形表示，结合粗粒度的话语层面的上下文表示来评估对话的连贯性，从而较好地衡量了各种对话模型的性能并提高了人机相关度。

Oct, 2020

如何不评估您的对话系统：对话响应生成任务无监督评估指标的实证研究

本文研究对话响应生成系统的评估指标，其中没有可用的监督标签。最近，对话响应生成的研究采用了机器翻译的指标来比较模型生成的响应和单个目标响应。我们展示了这些指标与非技术 Twitter 领域中的人类判断之间的关系非常弱，而在技术 Ubuntu 领域中根本没有。我们提供了定量和定性结果，突出了现有指标的特定弱点，并提供了未来开发更好的自动评估指标的建议。

Mar, 2016

对话评估指标的全面评估

这篇论文对 23 种不同的自动评估度量在 10 个不同的数据集上进行了评估，并在不同的设置中对其进行了评估，从而更好地确定它们各自的优缺点。综合评估提供了关于对话评估指标的几个认识，为未来的研究提供了有用的指导。

Jun, 2021

基于情绪、人口信息和隐式用户反馈的面向任务的文档驱动对话学习

近期人机交互领域的研究表明，考虑到人口统计信息、用户情感以及从话语中的隐含反馈中学习是任务导向和以文档为基础的对话系统获得用户接受和喜欢的关键。然而，这些发现尚未在自然语言处理领域得到应用，缺乏相应的数据集。为了填补这一空白，我们引入了 FEDI，这是第一个包含任务导向的以文档为基础的对话的英语数据集，其中注释了人口统计信息、用户情感和隐含反馈。我们使用 FLAN-T5、GPT-2 和 LLaMA-2 进行实验，结果表明这些数据有潜力改善任务完成情况、生成回答的事实一致性以及用户接受程度。

Jan, 2024

学习用于在线对话评估的无参考度量

本文提出了一种基于预训练语言模型从句子中提取潜在表示并利用它们之间的时间关系进行对话质量评估的自动评估度量标准，不需要人工生成参考回复并在推理过程中不需要真实响应。在在线环境中，该模型与人类评注的相关性更高。

May, 2020

迈向自动图灵测试：学习对话响应评估

提出 ADEM 模型用于对话质量的学习式自动评估，其比基于词汇重叠的 BLEU 更能与人类评估相匹配，同时具有泛化评估不同模型的能力。

Aug, 2017

面向人的对话系统评估指标

提出基于心理学，对话系统评估的度量标准，包括情感熵、语言风格和情感匹配度、宜人性和共情等 5 个指标。将这些指标与 6 个最先进的自动评价指标进行比较，并使用三种不同模型（ChatGPT、GPT-3 和 BlenderBot）的对话数据集进行实验，结果表明，所提出的人类度量标准不仅提供了新颖的信息，而且与自动度量标准不相关，并且优于现有的自动度量标准在预测众包对话评价方面的准确性。所提出的基于人类中心的框架具有解释性和独特的信号，是评估和改进对话系统的有价值的工具。

May, 2023

PONE：一种新型开放域生成对话系统自动评估度量

通过对三类自动评估方法的系统比较，本文认为基于学习的指标是评估开放领域生成对话系统最有效的方法。为了解决由于负采样机制导致的数据集不平衡和低质问题，本文提出了一种新的基于学习的评估指标 PONE，并经过实验证明，在使用增强的正样本和有价值的负样本后，可以显著提高与人类判断的相关性，平均相关性提高达 13.18％。

Apr, 2020

评估自然语言生成的任务导向对话中无监督度量的相关性

本文考察了在 task-oriented 对话回复生成中是否能够使用 Automated metrics 如 BLEU 准确度较高地评估生成结果。研究表明这些自动化评价指标与人类判断在 task-oriented 环境中的相关性较高，更适合适用于提供多个参考数据的数据集。同时，本文倡导更具挑战性的数据集的建构。

Jun, 2017