RADE：基于参考的开放领域对话评估

ACLSep, 2023

RADE：基于参考的开放领域对话评估

RADE: Reference-Assisted Dialogue Evaluation for Open-Domain Dialogue

Zhengliang Shi, Weiwei Sun, Shuo Zhang, Zhen Zhang, Pengjie Ren...

TL;DR使用参考答案辅助的多任务学习框架可以评估开放领域对话系统，有效解决多对多问题，通过人工标注获取多个评分而非仅限于黄金答案，实验证明该方法优于现有基准。

Abstract

Evaluating open-domain dialogue systems is challenging for reasons such as the one-to-many problem, i.e., many appropriate responses other than just the golden response. As of now, automatic evaluation methods ne

open-domain dialogue systems automatic evaluation methods reference-assisted dialogue evaluation multi-task learning framework human annotation

发现论文，激发创造

通过人工多重参考研究开放式对话系统的评估

本文旨在通过多参考评估减少开放领域对话系统的自动评估的缺点，研究结果表明，使用多参考评估可以提高几种自动指标与人类判断之间的相关性，无论是对于系统输出的质量还是多样性。

Jul, 2019

通过多样化参考信息增强提高开放域对话自动评估

本文提出了一种新技术，即自动将人工生成的参考文本扩展为一组备选参考文本的技术，该技术通过从知识源中获取可信的文本响应并对其进行调整，以使其在当前对话情境中更加符合逻辑，说明其方法可以显著提高与人工系统输出评级的自动指标的相关性。

Jun, 2021

迈向自动图灵测试：学习对话响应评估

提出 ADEM 模型用于对话质量的学习式自动评估，其比基于词汇重叠的 BLEU 更能与人类评估相匹配，同时具有泛化评估不同模型的能力。

Aug, 2017

实现对开放域对话系统的可靠人工评估

本文提出了一种可靠且低成本的人类评估方法，以取代已被证明不可靠的自动评估方法，比较了与无人设定的系统相比，使用人设定对话主题的对话系统在对话质量上没有积极的贡献。

Mar, 2022

RADDLE：一个稳健的面向任务型对话系统的评估基准与分析平台

为了最大限度地提高面向任务的对话系统的实用性，该论文引入了 RADDLE 基准，该基准是一个语料库和工具的集合，用于评估模型在不同领域的性能。通过包括训练数据有限的任务，RADDLE 旨在鼓励具有强大泛化能力的模型。通过现有模型的评估，发现它们在鲁棒性评估方面不尽如人意，这提示了未来的改进机会。

Dec, 2020

设计精确和鲁棒的对话响应评估器

本文提出建立无参考评估器以及利用半监督训练和预训练（掩码）语言模型的方法来改进自动对话响应评估器的性能，实验结果表明所提出的自动评估器与人类判断具有很强的相关性（>0.6）并且能够很好地适应不同的回答和语料库。该研究代码和数据已经开源在指定链接。

Apr, 2020

一种适用所有语言的 “统治者”: 基于对抗多任务学习的多语言对话评价

提出了一种跨语言对话评估的 ADVMT 模型，利用神经网络指标对开放域对话系统的表现进行评估，并在两种不同语言的情况下进行评估，结果显示其与人工评估的相关性高于现有指标。

May, 2018

MDD-Eval：基于增强数据的自训练多领域对话评估

提出了 MDD-Eval 框架，通过对话内评价与跨领域自学得到多领域评价能力，从而使得相较于现有自动对话评价指标，其在 6 个评价基准测试中可以取得 7% 的平均 Spearman 相关性分数的显著提高。

Dec, 2021

开放域对话响应选择的系统评估

本研究对开源聊天机器人的多种回复生成方法进行了系统评估，提出了利用手动注释筛选出的多个正向回复和负向回复，从而提高模型效果的新训练数据，并实验证明性能较之采用对抗训练数据有更显著提升。

Aug, 2022

通过多引用对抗数据集和大规模预训练来改善对话评估

为了更好地训练和评估基于模型的度量方法，我们引入了 DailyDialog++ 数据集，并提出了一种新的基于 BERT 的度量方法 DEB，该方法预训练与 Reddit 对话中并且对我们的数据集进行了微调。DEB 的性能显著优于现有模型，并表现出更好的与人类判断的相关性和更好的随机负例性能，但在对抗性响应的评估中性能显著下降。

Sep, 2020