利用蕴涵关系评估对话系统中的一致性

ACLApr, 2019

利用蕴涵关系评估对话系统中的一致性

Evaluating Coherence in Dialogue Systems using Entailment

Nouha Dziri, Ehsan Kamalloo, Kory W. Mathewson, Osmar Zaiane

TL;DR本文提出了基于分布式句子表示的可解释计算指标，用于评估开放领域对话系统的主题、话题的连贯性，减少了人工判断实验的时间成本和不可伸缩性，并结合先进的蕴含技术，介绍了可计算的人工判断形式，实现了对大规模数据集上对话质量的无偏估计。

Abstract

Evaluating open-domain dialogue systems is difficult due to the diversity of possible correct answers. automatic metrics such as BLEU correlate weakly with human annotations, resulting in a significant bias acros

open-domain dialogue systems automatic metrics interpretable metrics topic coherence conversational coherence

发现论文，激发创造

量化对话连贯性评价

提出了一种新方法 QuantiDCE 来训练可量化的对话连贯性评估度量，该方法通过多级排名（MLR）预训练和知识蒸馏（KD）微调两个阶段训练模型并使用少量人工注释数据来进一步微调模型，实验结果表明，该模型与人类判断之间的相关性比其他最先进的度量标准更强。

Jun, 2021

面向人的对话系统评估指标

提出基于心理学，对话系统评估的度量标准，包括情感熵、语言风格和情感匹配度、宜人性和共情等 5 个指标。将这些指标与 6 个最先进的自动评价指标进行比较，并使用三种不同模型（ChatGPT、GPT-3 和 BlenderBot）的对话数据集进行实验，结果表明，所提出的人类度量标准不仅提供了新颖的信息，而且与自动度量标准不相关，并且优于现有的自动度量标准在预测众包对话评价方面的准确性。所提出的基于人类中心的框架具有解释性和独特的信号，是评估和改进对话系统的有价值的工具。

May, 2023

评估自然语言生成的任务导向对话中无监督度量的相关性

本文考察了在 task-oriented 对话回复生成中是否能够使用 Automated metrics 如 BLEU 准确度较高地评估生成结果。研究表明这些自动化评价指标与人类判断在 task-oriented 环境中的相关性较高，更适合适用于提供多个参考数据的数据集。同时，本文倡导更具挑战性的数据集的建构。

Jun, 2017

衡量对话的语义连贯性

介绍一个新任务：测量基于背景知识的语义相 (不) 一致性，在 Ubuntu Dialog Corpus 上使用知识图谱、矢量空间嵌入和单词嵌入模型提出和评估基于图形和机器学习的方法来测量语义的一致性，并展示了这些方法能够发现对话中的不同一致性模式。

Jun, 2018

实现对开放域对话系统的可靠人工评估

本文提出了一种可靠且低成本的人类评估方法，以取代已被证明不可靠的自动评估方法，比较了与无人设定的系统相比，使用人设定对话主题的对话系统在对话质量上没有积极的贡献。

Mar, 2022

对话评估指标的全面评估

这篇论文对 23 种不同的自动评估度量在 10 个不同的数据集上进行了评估，并在不同的设置中对其进行了评估，从而更好地确定它们各自的优缺点。综合评估提供了关于对话评估指标的几个认识，为未来的研究提供了有用的指导。

Jun, 2021

GRADE：用于评估开放域对话系统的自动图形增强相关性度量

本论文提出了一种新的评估指标 GRADE，通过考虑话题转移的动态和话题层面的图形表示，结合粗粒度的话语层面的上下文表示来评估对话的连贯性，从而较好地衡量了各种对话模型的性能并提高了人机相关度。

Oct, 2020

对开放领域对话系统进行可配置评估指标的解构与重构

我们提出了一种灵活的度量方法，并通过组合可管理的质量、将质量分成三组，并将每个方面的指标合成为一个指标，得到了名为 USL-H 的度量方法，证明了 USL-H score 与人工评价具有良好的相关性和可配置性。

Nov, 2020

自动对话评估的用户响应和情感预测

本文提出了三种方法，利用情感分析对开放域对话进行自动评估，并在书面和口头对话数据集上胜过现有的自动评估指标。

Nov, 2021

使用自我对战近似交互式人类评估的开放域对话系统

本文提出一种交互式的人工评估对话质量的方法，并介绍了一种基于自我对话的度量方式，该方式可以更好地捕捉对话模型的质量，同时使用了情感和语义连贯性等维度。通过对多个模型的实验比较，研究表明，这种度量方式优于目前已知的所有自动化方法，同时也优于静态会话的人工评估。最后，开放性地共享出研究基于交互式评估所构建的数据集和平台以供其它研究者使用。

Jun, 2019