基于主题的对话机器人评估

NIPSJan, 2018

Topic-based Evaluation for Conversational Bots

Fenfei Guo, Angeliki Metallinou, Chandra Khatri, Anirudh Raju, Anu Venkatesh...

TL;DR使用基于话题的度量标准来评估对话质量，包括考虑对话机器人在话题上维持连贯和有吸引力的对话能力及其多样性，并采用深度平均网络和话题分类器检测每个话语的对话话题，进一步引入话题关注表以捕捉话语中的话题关键字以及执行话题分类。经过与用户提供的评分进行比较，研究表明这些度量标准既与人类判断相关又补充人类判断，并且在亚历山大奖竞赛中对数万个真实人 - 机器人对话进行分析，凸显出用户对话机器人的期望。

Abstract

dialog evaluation is a challenging problem, especially for non task-oriented dialogs where conversational success is not well-defined. We propose to evaluate dialog quality using topic-based metrics that describe

dialog evaluation topic-based metrics deep average networks topic classification conversational bots

发现论文，激发创造

对话系统的上下文主题建模

本文提出了一种上下文感知的谈话主题分类方法，通过引入对话上下文和对话行为特征，扩展了神经主题分类和无监督主题关键词检测的先前研究，以提高谈话中的主题识别准确性和预测用户评价指标。

Oct, 2018

评估和比较开放域对话系统

本文提出了一种全面的评估策略，与人类判断相关的几个指标是构建无目标对话系统的关键，此方法可促进对话型 AI 的自动化评估过程。

Jan, 2018

面向人的对话系统评估指标

提出基于心理学，对话系统评估的度量标准，包括情感熵、语言风格和情感匹配度、宜人性和共情等 5 个指标。将这些指标与 6 个最先进的自动评价指标进行比较，并使用三种不同模型（ChatGPT、GPT-3 和 BlenderBot）的对话数据集进行实验，结果表明，所提出的人类度量标准不仅提供了新颖的信息，而且与自动度量标准不相关，并且优于现有的自动度量标准在预测众包对话评价方面的准确性。所提出的基于人类中心的框架具有解释性和独特的信号，是评估和改进对话系统的有价值的工具。

May, 2023

Topical-Chat：面向知识驱动的开放域对话

使用 Topical-Chat 数据集，我们训练了多个最先进的编码器 - 解码器对话模型，并进行了自动化和人工评估，以帮助在开放领域对话人工智能方面的进一步研究。

Aug, 2023

利用用户情感进行自动对话评估

本文提出使用自动提取的信息作为衡量已有机器人回答质量的替代方法，从而避免了对人工标注数据的依赖，实现对弱监督数据的训练，并添加了对口语和书面语的支持。

Mar, 2022

对话评估指标的全面评估

这篇论文对 23 种不同的自动评估度量在 10 个不同的数据集上进行了评估，并在不同的设置中对其进行了评估，从而更好地确定它们各自的优缺点。综合评估提供了关于对话评估指标的几个认识，为未来的研究提供了有用的指导。

Jun, 2021

Spot The Bot: 评估对话式系统的强大高效框架

本文介绍了一种名为 “Spot The Bot” 的聊天机器人评估框架，该框架使用 “生存分析” 作为度量标准，并通过与其他聊天机器人的比较，评估其在模拟人类会话行为方面的能力，以此取代传统基于人工评估的方式。

Oct, 2020

人类评估对话的敏感度是个开放性问题：比较不同的方法用于评估对话代理

本文研究了如何有效地评估对话系统的性能，发现人工评估是最好的方法，但人工评估方法的不同会导致不同的数量的人工注释和劳动成本，因此我们比较了五种不同的众包工人评估方法，发现不同的方法适用于不同类型的模型比较，建议在何时采用哪种方法，以及未来的研究方向。

Jan, 2022

DSTC 11 跟踪器 4：开放域对话系统鲁棒性和多语言自动评估指标综述

本文提出神经网络和自动评估方法在对话系统中的应用，特别关注 DSTC11 的自动评估度量标准和结果。

Jun, 2023

利用蕴涵关系评估对话系统中的一致性

本文提出了基于分布式句子表示的可解释计算指标，用于评估开放领域对话系统的主题、话题的连贯性，减少了人工判断实验的时间成本和不可伸缩性，并结合先进的蕴含技术，介绍了可计算的人工判断形式，实现了对大规模数据集上对话质量的无偏估计。

Apr, 2019