ComperDial: 基于常识和角色的对话数据集与基准

Jun, 2024

ComperDial: 基于常识和角色的对话数据集与基准

ComperDial: Commonsense Persona-grounded Dialogue Dataset and Benchmark

Hiromi Wakaki, Yuki Mitsufuji, Yoshinori Maeda, Yukiko Nishimura, Silin Gao...

TL;DR我们提出了一个新的基准系统 ComperDial，用于为开放领域对话系统的训练和评估提供测评度量标准。ComperDial 包括来自 99 个对话代理的 1,485 个对话中的 10,395 个对话转折的人工评分响应，除了单个对话转折的评分外，也包含对整个对话进行人工注释的评分，我们利用 ComperDial 开发了一种新的自动评估度量标准 CPDScore，实验证明 CPDScore 与人类判断更相关。我们将 ComperDial 和 CPDScore 发布给社区，以加速开放领域对话系统自动评估度量标准的开发。

Abstract

We propose a new benchmark, ComperDial, which facilitates the training and evaluation of evaluation metrics for open-domain dialogue systems

benchmark dialogue systems evaluation metrics dialogue-level human-annotated scores automatic evaluation metric

发现论文，激发创造

xDial-Eval: 多语言开放领域对话评估基准

使用预训练语言模型和高质量标注的对话数据，最近关于开放域对话评估的无参考学习测量的进展主要集中在英文对话上，对这些测量指标在其他语言上的泛化性还没有得到充分研究。因此，为了解决这个问题，我们引入了一个基于英文对话评估数据集的 xDial-Eval 来进行多语言对话评估基准测试，并建立了自监督和多语言基线模型。与 OpenAI 的 ChatGPT 相比，最好的基线模型在所有数据集和语言上的平均 Pearson 相关系数分别提升了 6.5% 和 4.6%，同时具有更少的参数。

Oct, 2023

SocialDial: 一个用于社交感知对话系统的基准测试

本文提出了第一个基于中国社会文化的社交感知对话语料库 - SocialDial，使用 ChatGPT 生成了 4,870 段数据，并评估了使用 BERT 和 RoBERTa 等预训练模型的数据集。

Apr, 2023

CGoDial：中文目标导向对话评估的大规模基准

提出了 CGoDial 多领域目标导向对话评估新挑战性和综合性中文基准，包括三个使用不同知识来源的数据集（基于插槽的对话、基于流的对话和基于检索的对话），实验设置中考虑了训练集和测试集的不同组合，其中包括使用真实会话数据或通过众包添加口语特征来填补学术基准和口语场景之间的差距。

Nov, 2022

PairEval：使用配对比较进行开放域对话评价

提出了一种基于对话响应之间的比较评估的对话评估度量方法 PairEval，该度量方法比基准度量方法更具鲁棒性，并且与人类判断的相关性更高。

Apr, 2024

改进角色感知对话数据集的双重任务框架

本文介绍了一种简单而有效的数据中心方法，用于改善个性化对话代理。通过利用针对两个任务的原始 - 对偶结构（预测对话响应和个人资料之间的联系），我们增强了相关人物角色，以改进对话数据集 / 代理，并修复了基准数据集的注释问题，其巨大地增加了模型的精度，体现在 Persona-Chat 上的实验中，我们的方法在准确性上比预训练 LM 高出 11.7 个百分点。

Feb, 2022

DiQAD: 一个用于端到端开放域对话评估的基准数据集

发布了一个新的大规模对话质量评估数据集（DiQAD），用于自动评估开放域对话质量。

Oct, 2023

Task2Dial：基于文件的通识增强任务型对话的新型任务和数据集

本文提出了一种基于常识增强的基于任务的对话任务，并描述了 Task2Dial 数据集，这是一个基于文档的任务对话的新数据集，在此设置中，IF 可以提出澄清问题，这些问题可能不基于基础文档，需要常识知识来回答。

Apr, 2022

面向人的对话系统评估指标

提出基于心理学，对话系统评估的度量标准，包括情感熵、语言风格和情感匹配度、宜人性和共情等 5 个指标。将这些指标与 6 个最先进的自动评价指标进行比较，并使用三种不同模型（ChatGPT、GPT-3 和 BlenderBot）的对话数据集进行实验，结果表明，所提出的人类度量标准不仅提供了新颖的信息，而且与自动度量标准不相关，并且优于现有的自动度量标准在预测众包对话评价方面的准确性。所提出的基于人类中心的框架具有解释性和独特的信号，是评估和改进对话系统的有价值的工具。

May, 2023

对话评估指标的全面评估

这篇论文对 23 种不同的自动评估度量在 10 个不同的数据集上进行了评估，并在不同的设置中对其进行了评估，从而更好地确定它们各自的优缺点。综合评估提供了关于对话评估指标的几个认识，为未来的研究提供了有用的指导。

Jun, 2021

CookDial: 一个基于过程文档的任务导向对话数据集

本研究提供了一个新的对话数据集 CookDial，该数据集在任务导向的对话系统中将过程知识理解与复杂代理决策相结合。为了应对任务导向的对话系统中的三个挑战性子任务，并针对每个任务开发了一个神经基准模型，并在 CookDial 数据集上进行了评估。

Jun, 2022