使用自我对战近似交互式人类评估的开放域对话系统

Jun, 2019

使用自我对战近似交互式人类评估的开放域对话系统

Approximating Interactive Human Evaluation with Self-Play for Open-Domain Dialog Systems

Asma Ghandeharioun, Judy Hanwen Shen, Natasha Jaques, Craig Ferguson, Noah Jones...

TL;DR本文提出一种交互式的人工评估对话质量的方法，并介绍了一种基于自我对话的度量方式，该方式可以更好地捕捉对话模型的质量，同时使用了情感和语义连贯性等维度。通过对多个模型的实验比较，研究表明，这种度量方式优于目前已知的所有自动化方法，同时也优于静态会话的人工评估。最后，开放性地共享出研究基于交互式评估所构建的数据集和平台以供其它研究者使用。

Abstract

Building an open-domain conversational agent is a challenging problem. Current evaluation methods, mostly post-hoc judgments of static conversation, do not capture conversation quality in a realistic interactive context. In this paper, we investigate interactive →

conversational agent human evaluation self-play scenario sentiment semantic coherence

发现论文，激发创造

实现对开放域对话系统的可靠人工评估

本文提出了一种可靠且低成本的人类评估方法，以取代已被证明不可靠的自动评估方法，比较了与无人设定的系统相比，使用人设定对话主题的对话系统在对话质量上没有积极的贡献。

Mar, 2022

通过人工多重参考研究开放式对话系统的评估

本文旨在通过多参考评估减少开放领域对话系统的自动评估的缺点，研究结果表明，使用多参考评估可以提高几种自动指标与人类判断之间的相关性，无论是对于系统输出的质量还是多样性。

Jul, 2019

利用用户情感进行自动对话评估

本文提出使用自动提取的信息作为衡量已有机器人回答质量的替代方法，从而避免了对人工标注数据的依赖，实现对弱监督数据的训练，并添加了对口语和书面语的支持。

Mar, 2022

重新审视开放域对话系统中的回应评估

通过分析和研究，本文从交互对话参与者的角度探讨了自动回复评估器所需的功能特征，并通过实验发现交互对话参与者的意识在确保自动回复评估与其判断相关性方面起着关键作用。同时，通过大规模对话数据集的使用，证明了对话连续性预测可以训练出一个具备交互对话参与者意识的自动回复评估器，但相较于人类回复，评估生成回复的困难性也得到了揭示。

Jan, 2024

人类评估对话的敏感度是个开放性问题：比较不同的方法用于评估对话代理

本文研究了如何有效地评估对话系统的性能，发现人工评估是最好的方法，但人工评估方法的不同会导致不同的数量的人工注释和劳动成本，因此我们比较了五种不同的众包工人评估方法，发现不同的方法适用于不同类型的模型比较，建议在何时采用哪种方法，以及未来的研究方向。

Jan, 2022

评估和比较开放域对话系统

本文提出了一种全面的评估策略，与人类判断相关的几个指标是构建无目标对话系统的关键，此方法可促进对话型 AI 的自动化评估过程。

Jan, 2018

自动对话评估的用户响应和情感预测

本文提出了三种方法，利用情感分析对开放域对话进行自动评估，并在书面和口头对话数据集上胜过现有的自动评估指标。

Nov, 2021

MDD-Eval：基于增强数据的自训练多领域对话评估

提出了 MDD-Eval 框架，通过对话内评价与跨领域自学得到多领域评价能力，从而使得相较于现有自动对话评价指标，其在 6 个评价基准测试中可以取得 7% 的平均 Spearman 相关性分数的显著提高。

Dec, 2021

面向人的对话系统评估指标

提出基于心理学，对话系统评估的度量标准，包括情感熵、语言风格和情感匹配度、宜人性和共情等 5 个指标。将这些指标与 6 个最先进的自动评价指标进行比较，并使用三种不同模型（ChatGPT、GPT-3 和 BlenderBot）的对话数据集进行实验，结果表明，所提出的人类度量标准不仅提供了新颖的信息，而且与自动度量标准不相关，并且优于现有的自动度量标准在预测众包对话评价方面的准确性。所提出的基于人类中心的框架具有解释性和独特的信号，是评估和改进对话系统的有价值的工具。

May, 2023

利用蕴涵关系评估对话系统中的一致性

本文提出了基于分布式句子表示的可解释计算指标，用于评估开放领域对话系统的主题、话题的连贯性，减少了人工判断实验的时间成本和不可伸缩性，并结合先进的蕴含技术，介绍了可计算的人工判断形式，实现了对大规模数据集上对话质量的无偏估计。

Apr, 2019