对话系统归因的评估: BEGIN 基准测试

ACLApr, 2021

对话系统归因的评估: BEGIN 基准测试

Evaluating Attribution in Dialogue Systems: The BEGIN Benchmark

Nouha Dziri, Hannah Rashkin, Tal Linzen, David Reitter

TL;DR该研究提出了用于评估基于知识的对话系统质量的 BEGIN 基准，该基准由 12k 条对话数据组成，评估了 8 个评估指标，结果发现这些指标过度依赖并不可靠，在长文本下表现更差，说明需要更加精细和强健的评估指标。

Abstract

knowledge-grounded dialogue systems powered by large language models often generate responses that, while fluent, are not attributable to a relevant source of information. Progress towards models that do not exhibit this issue requires →

knowledge-grounded dialogue systems evaluation metrics neural dialogue systems grounded interaction attribution

发现论文，激发创造

面向人的对话系统评估指标

提出基于心理学，对话系统评估的度量标准，包括情感熵、语言风格和情感匹配度、宜人性和共情等 5 个指标。将这些指标与 6 个最先进的自动评价指标进行比较，并使用三种不同模型（ChatGPT、GPT-3 和 BlenderBot）的对话数据集进行实验，结果表明，所提出的人类度量标准不仅提供了新颖的信息，而且与自动度量标准不相关，并且优于现有的自动度量标准在预测众包对话评价方面的准确性。所提出的基于人类中心的框架具有解释性和独特的信号，是评估和改进对话系统的有价值的工具。

May, 2023

利用蕴涵关系评估对话系统中的一致性

本文提出了基于分布式句子表示的可解释计算指标，用于评估开放领域对话系统的主题、话题的连贯性，减少了人工判断实验的时间成本和不可伸缩性，并结合先进的蕴含技术，介绍了可计算的人工判断形式，实现了对大规模数据集上对话质量的无偏估计。

Apr, 2019

xDial-Eval: 多语言开放领域对话评估基准

使用预训练语言模型和高质量标注的对话数据，最近关于开放域对话评估的无参考学习测量的进展主要集中在英文对话上，对这些测量指标在其他语言上的泛化性还没有得到充分研究。因此，为了解决这个问题，我们引入了一个基于英文对话评估数据集的 xDial-Eval 来进行多语言对话评估基准测试，并建立了自监督和多语言基线模型。与 OpenAI 的 ChatGPT 相比，最好的基线模型在所有数据集和语言上的平均 Pearson 相关系数分别提升了 6.5% 和 4.6%，同时具有更少的参数。

Oct, 2023

大型语言模型归因调查

该研究论文对开放领域生成系统的归因机制进行了全面回顾，特别是大型语言模型。尽管归因或引用可以改善事实性和可验证性，但模糊的知识库、内在偏见以及过度归因的缺点可能会妨碍这些系统的有效性。本调查旨在为研究人员提供有价值的见解，以帮助改进归因方法论，提高开放领域生成系统生成的响应的可靠性和真实性。我们认为这个领域目前仍处于初级阶段，并维护一个存储库来跟踪正在进行的研究。

Nov, 2023

评估自然语言生成的任务导向对话中无监督度量的相关性

本文考察了在 task-oriented 对话回复生成中是否能够使用 Automated metrics 如 BLEU 准确度较高地评估生成结果。研究表明这些自动化评价指标与人类判断在 task-oriented 环境中的相关性较高，更适合适用于提供多个参考数据的数据集。同时，本文倡导更具挑战性的数据集的建构。

Jun, 2017

学习用于在线对话评估的无参考度量

本文提出了一种基于预训练语言模型从句子中提取潜在表示并利用它们之间的时间关系进行对话质量评估的自动评估度量标准，不需要人工生成参考回复并在推理过程中不需要真实响应。在在线环境中，该模型与人类评注的相关性更高。

May, 2020

通过可控特征提高基于知识的对话的准确性

研究知识基础对话系统，控制生成神经对话模型，加入不同的评估措施作为样式控制以鼓励模型生成有据可依的响应，并通过人类评估研究判断控制生成模型的产出通常更加客观和有据可依。

Jul, 2021

通过人工多重参考研究开放式对话系统的评估

本文旨在通过多参考评估减少开放领域对话系统的自动评估的缺点，研究结果表明，使用多参考评估可以提高几种自动指标与人类判断之间的相关性，无论是对于系统输出的质量还是多样性。

Jul, 2019

FineD-Eval: 细颗粒自动对话级别评估

本文介绍了一种基于多维度的对话级度量方法，由三个子度量组成，对每个子度量使用新颖的自监督方法进行训练，通过指标组合和多任务学习的方式，综合度量显著优于单一子度量。

Oct, 2022

如何不评估您的对话系统：对话响应生成任务无监督评估指标的实证研究

本文研究对话响应生成系统的评估指标，其中没有可用的监督标签。最近，对话响应生成的研究采用了机器翻译的指标来比较模型生成的响应和单个目标响应。我们展示了这些指标与非技术 Twitter 领域中的人类判断之间的关系非常弱，而在技术 Ubuntu 领域中根本没有。我们提供了定量和定性结果，突出了现有指标的特定弱点，并提供了未来开发更好的自动评估指标的建议。

Mar, 2016