实现对开放域对话系统的可靠人工评估

ACLMar, 2022

实现对开放域对话系统的可靠人工评估

Achieving Reliable Human Assessment of Open-Domain Dialogue Systems

Tianbo Ji, Yvette Graham, Gareth J. F. Jones, Chenyang Lyu, Qun Liu

TL;DR本文提出了一种可靠且低成本的人类评估方法，以取代已被证明不可靠的自动评估方法，比较了与无人设定的系统相比，使用人设定对话主题的对话系统在对话质量上没有积极的贡献。

Abstract

Evaluation of open-domain dialogue systems is highly challenging and development of better techniques is highlighted time and again as desperately needed. Despite substantial efforts to carry out reliable live evaluation of systems in recent competitions, annotations have been abandone

open-domain dialogue systems human evaluation statistical significance testing personas conversation quality

发现论文，激发创造

使用自我对战近似交互式人类评估的开放域对话系统

本文提出一种交互式的人工评估对话质量的方法，并介绍了一种基于自我对话的度量方式，该方式可以更好地捕捉对话模型的质量，同时使用了情感和语义连贯性等维度。通过对多个模型的实验比较，研究表明，这种度量方式优于目前已知的所有自动化方法，同时也优于静态会话的人工评估。最后，开放性地共享出研究基于交互式评估所构建的数据集和平台以供其它研究者使用。

Jun, 2019

通过人工多重参考研究开放式对话系统的评估

本文旨在通过多参考评估减少开放领域对话系统的自动评估的缺点，研究结果表明，使用多参考评估可以提高几种自动指标与人类判断之间的相关性，无论是对于系统输出的质量还是多样性。

Jul, 2019

重新审视开放域对话系统中的回应评估

通过分析和研究，本文从交互对话参与者的角度探讨了自动回复评估器所需的功能特征，并通过实验发现交互对话参与者的意识在确保自动回复评估与其判断相关性方面起着关键作用。同时，通过大规模对话数据集的使用，证明了对话连续性预测可以训练出一个具备交互对话参与者意识的自动回复评估器，但相较于人类回复，评估生成回复的困难性也得到了揭示。

Jan, 2024

人类评估对话的敏感度是个开放性问题：比较不同的方法用于评估对话代理

本文研究了如何有效地评估对话系统的性能，发现人工评估是最好的方法，但人工评估方法的不同会导致不同的数量的人工注释和劳动成本，因此我们比较了五种不同的众包工人评估方法，发现不同的方法适用于不同类型的模型比较，建议在何时采用哪种方法，以及未来的研究方向。

Jan, 2022

设计精确和鲁棒的对话响应评估器

本文提出建立无参考评估器以及利用半监督训练和预训练（掩码）语言模型的方法来改进自动对话响应评估器的性能，实验结果表明所提出的自动评估器与人类判断具有很强的相关性（>0.6）并且能够很好地适应不同的回答和语料库。该研究代码和数据已经开源在指定链接。

Apr, 2020

利用蕴涵关系评估对话系统中的一致性

本文提出了基于分布式句子表示的可解释计算指标，用于评估开放领域对话系统的主题、话题的连贯性，减少了人工判断实验的时间成本和不可伸缩性，并结合先进的蕴含技术，介绍了可计算的人工判断形式，实现了对大规模数据集上对话质量的无偏估计。

Apr, 2019

使用跟进概率进行开放域对话评估

本研究提出一种新的自动对话评估方法，使用固定的跟进集合（例如，这里没有真正相关的内容，你想说什么），测量语言模型继续对话的概率。相对于现有的 12 种评估方法，本方法与人类评估的相关性最高。

Sep, 2022

评估和比较开放域对话系统

本文提出了一种全面的评估策略，与人类判断相关的几个指标是构建无目标对话系统的关键，此方法可促进对话型 AI 的自动化评估过程。

Jan, 2018

走向统一的对话系统评估：对当前评估协议的全面分析

本文针对对话系统中的评估协议不统一的问题，综合研究了人工评估和自动评估方法，建议建立更加健壮和统一的评估协议，并对目前使用的自动、静态和交互式评估方法进行分析，最终通过与 Alexa Prize 2020 中的系统 - 用户对话数据进行比较，提出最有效的评估维度。

Jun, 2020

ACUTE-EVAL: 优化问题和多轮比较的对话评估改进

本研究提出一个基于自我对话模型的评价过程，旨在寻找一种在不同注释人员之间具有更强鲁棒性的评级测试方案。经过实验证明，在这种方案下，我们可以在更快、更便宜的情况下推出新的测试标准并发布开源代码。

Sep, 2019