学习用于在线对话评估的无参考度量

ACLMay, 2020

学习用于在线对话评估的无参考度量

Learning an Unreferenced Metric for Online Dialogue Evaluation

Koustuv Sinha, Prasanna Parthasarathi, Jasmine Wang, Ryan Lowe, William L. Hamilton...

TL;DR本文提出了一种基于预训练语言模型从句子中提取潜在表示并利用它们之间的时间关系进行对话质量评估的自动评估度量标准，不需要人工生成参考回复并在推理过程中不需要真实响应。在在线环境中，该模型与人类评注的相关性更高。

Abstract

Evaluating the quality of a dialogue interaction between two agents is a difficult task, especially in open-domain chit-chat style dialogue. There have been recent efforts to develop automatic dialogue evaluation metrics, but most of them do not generalize to unseen datasets and/or nee

dialogue interaction automatic evaluation metric pre-trained language models latent representation temporal transitions

发现论文，激发创造

如何不评估您的对话系统：对话响应生成任务无监督评估指标的实证研究

本文研究对话响应生成系统的评估指标，其中没有可用的监督标签。最近，对话响应生成的研究采用了机器翻译的指标来比较模型生成的响应和单个目标响应。我们展示了这些指标与非技术 Twitter 领域中的人类判断之间的关系非常弱，而在技术 Ubuntu 领域中根本没有。我们提供了定量和定性结果，突出了现有指标的特定弱点，并提供了未来开发更好的自动评估指标的建议。

Mar, 2016

设计精确和鲁棒的对话响应评估器

本文提出建立无参考评估器以及利用半监督训练和预训练（掩码）语言模型的方法来改进自动对话响应评估器的性能，实验结果表明所提出的自动评估器与人类判断具有很强的相关性（>0.6）并且能够很好地适应不同的回答和语料库。该研究代码和数据已经开源在指定链接。

Apr, 2020

RUBER: 一种自动评估开放领域对话系统的无监督方法

本文提出 RUBER 作为一个自动评估指标，旨在为开放式对话系统提供标准的评估方法，其评估响应时综合考虑了真实响应和查询的相关性，无需人工标注，适用于不同的数据集和语言，并通过实验与人工标注结果具有很高的相关性。

Jan, 2017

评估自然语言生成的任务导向对话中无监督度量的相关性

本文考察了在 task-oriented 对话回复生成中是否能够使用 Automated metrics 如 BLEU 准确度较高地评估生成结果。研究表明这些自动化评价指标与人类判断在 task-oriented 环境中的相关性较高，更适合适用于提供多个参考数据的数据集。同时，本文倡导更具挑战性的数据集的建构。

Jun, 2017

使用语境化的嵌入向开放领域对话系统提供更好的自动评估

本文探讨使用语境化词向量来计算更为准确的相关性评分，从而得出更好的评估指标，相较于仅训练静态嵌入的 RUBER 指标，新的指标表现更佳。

Apr, 2019

离线强化学习对话评估

本文提出了使用离线强化学习作为对话系统评估的一种方法，该方法基于一个静态语料库。通过训练一个离线强化学习批评家，我们展示了这种评估方法可用于各种类型的对话系统，而且与人类评判具有强相关性。

Sep, 2022

FineD-Eval: 细颗粒自动对话级别评估

本文介绍了一种基于多维度的对话级度量方法，由三个子度量组成，对每个子度量使用新颖的自监督方法进行训练，通过指标组合和多任务学习的方式，综合度量显著优于单一子度量。

Oct, 2022

利用用户情感进行自动对话评估

本文提出使用自动提取的信息作为衡量已有机器人回答质量的替代方法，从而避免了对人工标注数据的依赖，实现对弱监督数据的训练，并添加了对口语和书面语的支持。

Mar, 2022

USR: 一种无监督无参考的对话生成评估度量

本文提出了 USR，这是一种无参考的、自适应的对话评估指标，利用无监督模型来评估对话的多个理想特征，与热门的 Topical-Chat 和 PersonaChat 数据集的人类判断具有强相关性，此外还提供了对话多个理想特征的可解释性度量。

May, 2020

评估无法评估的内容：无法评估生成响应的质量

本研究构建了两个方言生成数据集 KdConv-ADV 和 DSTC7-ADV 以综合评估基于 LLMs 的评估器的可靠性，并发现使用基于 LLMs 的参考无关评估器评估对话响应的风险存在。

May, 2023