RUBER: 一种自动评估开放领域对话系统的无监督方法

Jan, 2017

RUBER: 一种自动评估开放领域对话系统的无监督方法

RUBER: An Unsupervised Method for Automatic Evaluation of Open-Domain Dialog Systems

Chongyang Tao, Lili Mou, Dongyan Zhao, Rui Yan

TL;DR本文提出 RUBER 作为一个自动评估指标，旨在为开放式对话系统提供标准的评估方法，其评估响应时综合考虑了真实响应和查询的相关性，无需人工标注，适用于不同的数据集和语言，并通过实验与人工标注结果具有很高的相关性。

Abstract

Open-domain human-computer conversation has been attracting increasing attention over the past few years. However, there does not exist a standard automatic evaluation metric for open-domain dialog systems; researchers usually resort to →

open-domain conversation automatic evaluation metric human annotation ruber model evaluation

发现论文，激发创造

使用语境化的嵌入向开放领域对话系统提供更好的自动评估

本文探讨使用语境化词向量来计算更为准确的相关性评分，从而得出更好的评估指标，相较于仅训练静态嵌入的 RUBER 指标，新的指标表现更佳。

Apr, 2019

学习用于在线对话评估的无参考度量

本文提出了一种基于预训练语言模型从句子中提取潜在表示并利用它们之间的时间关系进行对话质量评估的自动评估度量标准，不需要人工生成参考回复并在推理过程中不需要真实响应。在在线环境中，该模型与人类评注的相关性更高。

May, 2020

USR: 一种无监督无参考的对话生成评估度量

本文提出了 USR，这是一种无参考的、自适应的对话评估指标，利用无监督模型来评估对话的多个理想特征，与热门的 Topical-Chat 和 PersonaChat 数据集的人类判断具有强相关性，此外还提供了对话多个理想特征的可解释性度量。

May, 2020

设计精确和鲁棒的对话响应评估器

本文提出建立无参考评估器以及利用半监督训练和预训练（掩码）语言模型的方法来改进自动对话响应评估器的性能，实验结果表明所提出的自动评估器与人类判断具有很强的相关性（>0.6）并且能够很好地适应不同的回答和语料库。该研究代码和数据已经开源在指定链接。

Apr, 2020

通过人工多重参考研究开放式对话系统的评估

本文旨在通过多参考评估减少开放领域对话系统的自动评估的缺点，研究结果表明，使用多参考评估可以提高几种自动指标与人类判断之间的相关性，无论是对于系统输出的质量还是多样性。

Jul, 2019

自动对话评估的用户响应和情感预测

本文提出了三种方法，利用情感分析对开放域对话进行自动评估，并在书面和口头对话数据集上胜过现有的自动评估指标。

Nov, 2021

如何不评估您的对话系统：对话响应生成任务无监督评估指标的实证研究

本文研究对话响应生成系统的评估指标，其中没有可用的监督标签。最近，对话响应生成的研究采用了机器翻译的指标来比较模型生成的响应和单个目标响应。我们展示了这些指标与非技术 Twitter 领域中的人类判断之间的关系非常弱，而在技术 Ubuntu 领域中根本没有。我们提供了定量和定性结果，突出了现有指标的特定弱点，并提供了未来开发更好的自动评估指标的建议。

Mar, 2016

利用用户情感进行自动对话评估

本文提出使用自动提取的信息作为衡量已有机器人回答质量的替代方法，从而避免了对人工标注数据的依赖，实现对弱监督数据的训练，并添加了对口语和书面语的支持。

Mar, 2022

说话者敏感性响应评估模型

该研究提出了一种基于相邻对话的自动评估模型，利用未标注对话语料库中的说话者定义不同级别的类似上下文，使用推特对话语料库进行实验，表明与其他现有评估指标相比，该模型具有更高的人类标注得分相关性。并展示了在无需额外训练的情况下，将该模型应用于电影对话。

Jun, 2020

实现对开放域对话系统的可靠人工评估

本文提出了一种可靠且低成本的人类评估方法，以取代已被证明不可靠的自动评估方法，比较了与无人设定的系统相比，使用人设定对话主题的对话系统在对话质量上没有积极的贡献。

Mar, 2022