人类评估对话的敏感度是个开放性问题：比较不同的方法用于评估对话代理

Jan, 2022

人类评估对话的敏感度是个开放性问题：比较不同的方法用于评估对话代理

Human Evaluation of Conversations is an Open Problem: comparing the sensitivity of various methods for evaluating dialogue agents

PDF

Eric Michael Smith, Orion Hsu, Rebecca Qian, Stephen Roller, Y-Lan Boureau...

TL;DR本文研究了如何有效地评估对话系统的性能，发现人工评估是最好的方法，但人工评估方法的不同会导致不同的数量的人工注释和劳动成本，因此我们比较了五种不同的众包工人评估方法，发现不同的方法适用于不同类型的模型比较，建议在何时采用哪种方法，以及未来的研究方向。

Abstract

At the heart of improving conversational ai is the open problem of how to evaluate conversations. Issues with automatic metrics are well known (Liu et al., 2016, arXiv:1603.08023), with →

conversational ai evaluation automatic metrics human evaluations crowdworker-based

发现论文，激发创造

评估和比较开放域对话系统

本文提出了一种全面的评估策略，与人类判断相关的几个指标是构建无目标对话系统的关键，此方法可促进对话型 AI 的自动化评估过程。

Jan, 2018

去除黄金标准：重新评估对话问答

本文对目前最先进的对话问答系统进行了首次的大规模人类评估，发现人类与机器之间的对话存在显著差异。此外，基于预测历史的问题重写机制能够更好地与人类判断相一致。通过研究各种建模策略，讨论了构建更好的对话问答系统的未来方向。

Dec, 2021

面向人的对话系统评估指标

提出基于心理学，对话系统评估的度量标准，包括情感熵、语言风格和情感匹配度、宜人性和共情等 5 个指标。将这些指标与 6 个最先进的自动评价指标进行比较，并使用三种不同模型（ChatGPT、GPT-3 和 BlenderBot）的对话数据集进行实验，结果表明，所提出的人类度量标准不仅提供了新颖的信息，而且与自动度量标准不相关，并且优于现有的自动度量标准在预测众包对话评价方面的准确性。所提出的基于人类中心的框架具有解释性和独特的信号，是评估和改进对话系统的有价值的工具。

May, 2023

使用自我对战近似交互式人类评估的开放域对话系统

本文提出一种交互式的人工评估对话质量的方法，并介绍了一种基于自我对话的度量方式，该方式可以更好地捕捉对话模型的质量，同时使用了情感和语义连贯性等维度。通过对多个模型的实验比较，研究表明，这种度量方式优于目前已知的所有自动化方法，同时也优于静态会话的人工评估。最后，开放性地共享出研究基于交互式评估所构建的数据集和平台以供其它研究者使用。

Jun, 2019

实现对开放域对话系统的可靠人工评估

本文提出了一种可靠且低成本的人类评估方法，以取代已被证明不可靠的自动评估方法，比较了与无人设定的系统相比，使用人设定对话主题的对话系统在对话质量上没有积极的贡献。

Mar, 2022

走向统一的对话系统评估：对当前评估协议的全面分析

本文针对对话系统中的评估协议不统一的问题，综合研究了人工评估和自动评估方法，建议建立更加健壮和统一的评估协议，并对目前使用的自动、静态和交互式评估方法进行分析，最终通过与 Alexa Prize 2020 中的系统 - 用户对话数据进行比较，提出最有效的评估维度。

Jun, 2020

ACUTE-EVAL: 优化问题和多轮比较的对话评估改进

本研究提出一个基于自我对话模型的评价过程，旨在寻找一种在不同注释人员之间具有更强鲁棒性的评级测试方案。经过实验证明，在这种方案下，我们可以在更快、更便宜的情况下推出新的测试标准并发布开源代码。

Sep, 2019

通过人工多重参考研究开放式对话系统的评估

本文旨在通过多参考评估减少开放领域对话系统的自动评估的缺点，研究结果表明，使用多参考评估可以提高几种自动指标与人类判断之间的相关性，无论是对于系统输出的质量还是多样性。

Jul, 2019

利用用户情感进行自动对话评估

本文提出使用自动提取的信息作为衡量已有机器人回答质量的替代方法，从而避免了对人工标注数据的依赖，实现对弱监督数据的训练，并添加了对口语和书面语的支持。

Mar, 2022

将主观众评估作为改进自然语言生成的附加客观标准的估计

本文探讨在多任务学习设置中，使用主观评估作为语言生成模型训练的一部分，并使用群众创作对话语料库对六种不同的语言生成模型进行微调。评估显示，多任务学习的模型生成的话语在主观上评分最高，且在推动对话发展、无冒犯性等方面得分最高。因此，将来可以研究将主观人类评估纳入语言生成模型训练中，从而在开发过程中更好地与人类用户进行交互。

Apr, 2021