设计精确和鲁棒的对话响应评估器

ACLApr, 2020

设计精确和鲁棒的对话响应评估器

Designing Precise and Robust Dialogue Response Evaluators

Tianyu Zhao, Divesh Lala, Tatsuya Kawahara

TL;DR本文提出建立无参考评估器以及利用半监督训练和预训练（掩码）语言模型的方法来改进自动对话响应评估器的性能，实验结果表明所提出的自动评估器与人类判断具有很强的相关性（>0.6）并且能够很好地适应不同的回答和语料库。该研究代码和数据已经开源在指定链接。

Abstract

automatic dialogue response evaluator has been proposed as an alternative to automated metrics and human evaluation. However, existing automatic evaluators achieve only moderate correlation with human judgement a

automatic dialogue response evaluator reference-free evaluator semi-supervised training pretrained language models correlation with human judgement

发现论文，激发创造

学习用于在线对话评估的无参考度量

本文提出了一种基于预训练语言模型从句子中提取潜在表示并利用它们之间的时间关系进行对话质量评估的自动评估度量标准，不需要人工生成参考回复并在推理过程中不需要真实响应。在在线环境中，该模型与人类评注的相关性更高。

May, 2020

说话者敏感性响应评估模型

该研究提出了一种基于相邻对话的自动评估模型，利用未标注对话语料库中的说话者定义不同级别的类似上下文，使用推特对话语料库进行实验，表明与其他现有评估指标相比，该模型具有更高的人类标注得分相关性。并展示了在无需额外训练的情况下，将该模型应用于电影对话。

Jun, 2020

重新审视开放域对话系统中的回应评估

通过分析和研究，本文从交互对话参与者的角度探讨了自动回复评估器所需的功能特征，并通过实验发现交互对话参与者的意识在确保自动回复评估与其判断相关性方面起着关键作用。同时，通过大规模对话数据集的使用，证明了对话连续性预测可以训练出一个具备交互对话参与者意识的自动回复评估器，但相较于人类回复，评估生成回复的困难性也得到了揭示。

Jan, 2024

迈向自动图灵测试：学习对话响应评估

提出 ADEM 模型用于对话质量的学习式自动评估，其比基于词汇重叠的 BLEU 更能与人类评估相匹配，同时具有泛化评估不同模型的能力。

Aug, 2017

通过人工多重参考研究开放式对话系统的评估

本文旨在通过多参考评估减少开放领域对话系统的自动评估的缺点，研究结果表明，使用多参考评估可以提高几种自动指标与人类判断之间的相关性，无论是对于系统输出的质量还是多样性。

Jul, 2019

评估无法评估的内容：无法评估生成响应的质量

本研究构建了两个方言生成数据集 KdConv-ADV 和 DSTC7-ADV 以综合评估基于 LLMs 的评估器的可靠性，并发现使用基于 LLMs 的参考无关评估器评估对话响应的风险存在。

May, 2023

实现对开放域对话系统的可靠人工评估

本文提出了一种可靠且低成本的人类评估方法，以取代已被证明不可靠的自动评估方法，比较了与无人设定的系统相比，使用人设定对话主题的对话系统在对话质量上没有积极的贡献。

Mar, 2022

利用用户情感进行自动对话评估

本文提出使用自动提取的信息作为衡量已有机器人回答质量的替代方法，从而避免了对人工标注数据的依赖，实现对弱监督数据的训练，并添加了对口语和书面语的支持。

Mar, 2022

离线强化学习对话评估

本文提出了使用离线强化学习作为对话系统评估的一种方法，该方法基于一个静态语料库。通过训练一个离线强化学习批评家，我们展示了这种评估方法可用于各种类型的对话系统，而且与人类评判具有强相关性。

Sep, 2022

如何不评估您的对话系统：对话响应生成任务无监督评估指标的实证研究

本文研究对话响应生成系统的评估指标，其中没有可用的监督标签。最近，对话响应生成的研究采用了机器翻译的指标来比较模型生成的响应和单个目标响应。我们展示了这些指标与非技术 Twitter 领域中的人类判断之间的关系非常弱，而在技术 Ubuntu 领域中根本没有。我们提供了定量和定性结果，突出了现有指标的特定弱点，并提供了未来开发更好的自动评估指标的建议。

Mar, 2016