DiQAD: 一个用于端到端开放域对话评估的基准数据集

EMNLPOct, 2023

DiQAD: 一个用于端到端开放域对话评估的基准数据集

DiQAD: A Benchmark Dataset for End-to-End Open-domain Dialogue Assessment

Yukun Zhao, Lingyong Yan, Weiwei Sun, Chong Meng, Shuaiqiang Wang...

TL;DR发布了一个新的大规模对话质量评估数据集（DiQAD），用于自动评估开放域对话质量。

Abstract

dialogue assessment plays a critical role in the development of open-domain dialogue systems. Existing work are uncapable of providing an end-to-end and human-epistemic assessment dataset, while they only provide

dialogue assessment open-domain dialogue systems assessment dataset dialogue quality assessment large-scale dialogues

发现论文，激发创造

朝向稳健评估：大语言模型时代开放领域问答数据集和度量的综合分类

本研究通过对 52 个数据集和 20 种评估技术进行综述，详细研究了当前开放域问题回答领域的现状，提出了一种包含问题类型的多模态数据集新分类法，并对评估指标进行结构化整理和批判性分析，旨在为现代问答系统的强大评估提供框架，并指出了当前的挑战和未来研究发展的有希望的方向。

Jun, 2024

KazQAD: 哈萨克语开放域问答数据集

我们介绍了 KazQAD 这个哈萨克斯坦的开放域问题回答数据集，可用于阅读理解和完整的 ODQA 设置，以及信息检索实验。该数据集包含近 6,000 个独特问题、提取的简短答案和将近 12,000 个段落级相关性判断。我们使用机器翻译、维基百科搜索和内部手动注释的组合来确保注释效率和数据质量。问题来自两个来源：从自然问题（NQ）数据集翻译而来的项目（仅用于训练）和哈萨克统一国家考试（UNT）的原始考题（用于开发和测试）。相关的文本语料库包含来自哈萨克斯坦维基百科的超过 800,000 个段落。作为补充数据集，我们发布了大约 61,000 个问题 - 段落 - 答案三元组，这些三元组已经被机器翻译成了哈萨克语。我们开发了基准检索器和阅读器，在检索（NDCG@10 = 0.389 MRR = 0.382）、阅读理解（EM = 38.5 F1 = 54.2）和完整的 ODQA（EM = 17.8 F1 = 28.7）设置下取得了合理的分数。然而，与英文 QA 集合的最新结果相比，这些结果要低得多，我们认为仍然有很大的改进空间。我们还表明目前的 OpenAI 的 ChatGPTv3.5 无法以可接受的质量回答 KazQAD 的测试问题（闭卷设置）。该数据集在创作公共许可证（CC BY-SA）下免费提供，链接为 https URL。

Apr, 2024

迈向自动图灵测试：学习对话响应评估

提出 ADEM 模型用于对话质量的学习式自动评估，其比基于词汇重叠的 BLEU 更能与人类评估相匹配，同时具有泛化评估不同模型的能力。

Aug, 2017

面向共情的开放领域对话模型：新基准和数据集

本文提出了一个新的共情对话生成指标和一个基于具有情感情境的 25k 个会话的新数据集 EmpatheticDialogues，实验表明使用我们的数据集的对话模型被人类评估员认为比仅在大规模互联网对话数据上训练的模型更具有移情能力，同时还通过实验比较了对情感回应进行的对话模型调整，利用现有模型或数据集而无需重新训练完整模型

Nov, 2018

ODSQA: 开放领域口语问答数据集

本文介绍一个包含超过三千个问题的开放领域口语问答数据集，研究发现自动语音识别误差对于口语问答有灾难性影响，本文提出将子词单元用于缓解该问题，同时通过对基于文本问答的训练样本进行数据扩增，提高了口语问答的表现。

Aug, 2018

ComperDial: 基于常识和角色的对话数据集与基准

我们提出了一个新的基准系统 ComperDial，用于为开放领域对话系统的训练和评估提供测评度量标准。ComperDial 包括来自 99 个对话代理的 1,485 个对话中的 10,395 个对话转折的人工评分响应，除了单个对话转折的评分外，也包含对整个对话进行人工注释的评分，我们利用 ComperDial 开发了一种新的自动评估度量标准 CPDScore，实验证明 CPDScore 与人类判断更相关。我们将 ComperDial 和 CPDScore 发布给社区，以加速开放领域对话系统自动评估度量标准的开发。

Jun, 2024

xDial-Eval: 多语言开放领域对话评估基准

使用预训练语言模型和高质量标注的对话数据，最近关于开放域对话评估的无参考学习测量的进展主要集中在英文对话上，对这些测量指标在其他语言上的泛化性还没有得到充分研究。因此，为了解决这个问题，我们引入了一个基于英文对话评估数据集的 xDial-Eval 来进行多语言对话评估基准测试，并建立了自监督和多语言基线模型。与 OpenAI 的 ChatGPT 相比，最好的基线模型在所有数据集和语言上的平均 Pearson 相关系数分别提升了 6.5% 和 4.6%，同时具有更少的参数。

Oct, 2023

QADiver: 诊断 QA 模型的交互式框架

本研究提出了一个基于 Web 的 UI 框架，通过整合可视化和分析工具来提供有关 QA 模型性能的信息，并帮助 QA 模型研究人员改进其模型的性能。

Dec, 2018

面向现实世界的口语方言问答

本文介绍了一个针对多个语言方言创建的语音问答数据集，分析了语音识别错误和方言对问答系统性能的影响，并且研究了不同用户群体的公平性问题。

Sep, 2021

MDD-Eval：基于增强数据的自训练多领域对话评估

提出了 MDD-Eval 框架，通过对话内评价与跨领域自学得到多领域评价能力，从而使得相较于现有自动对话评价指标，其在 6 个评价基准测试中可以取得 7% 的平均 Spearman 相关性分数的显著提高。

Dec, 2021