CoQA、SQuAD 2.0 和 QuAC 的定性比较

ACLSep, 2018

A Qualitative Comparison of CoQA, SQuAD 2.0 and QuAC

Mark Yatskar

TL;DR本文比较了三个新的问答数据集：SQuAD 2.0、QuAC 和 CoQA，在新特性（如无法回答的问题、多轮交互和摘要回答）方面进行了比较，并展示了这些数据集提供了互补性的覆盖率，但在回答的摘要方面覆盖率较弱。作者表明，由于数据集的结构相似，可以很容易地将单个选取模型适应于任何数据集，并展示了 SQuAD 2.0 和 CoQA 上的改进基线结果。尽管相似，但在一个数据集上训练的模型对另一个数据集是无效的，但我们通过预训练找到了适量的性能提升。为了鼓励交互评估，我们在此 https URL 上公开了数据集转换的代码。

Abstract

We compare three new datasets for question answering: squad 2.0, quac, and →

question answering squad 2.0 quac coqa pretraining

发现论文，激发创造

基于 SQuAD 的神经问答模型比较分析

本文通过定量和定性分析现有端到端神经模型在斯坦福问答数据集上的结果，旨在理解和比较其特性，以迈向实现在多个领域中的泛化能力。研究发现，预测错误反映了某些模型特定偏差，本文对此进行了进一步讨论。

Jun, 2018

上下文问答

本研究提出了一种基于对话的问答数据集 QuAC，其包含 14K 个信息寻求问答对话（共 100K 个问题），并且 QuAC 针对其他机器理解数据集中未发现的挑战进行了改进。我们在详细的定性评估中表明，QuAC 的问题通常更具开放性、难以回答或仅在对话上下文中有意义，还报告了许多参考模型的结果，包括最近被扩展为对话上下文模型的最先进的阅读理解体系结构。但是我们最好的模型仍然比人类表现差了 20 个 F1，这表明还有很大的未来工作空间。

Aug, 2018

知道你不知道什么：SQuAD 无法回答的问题

SQuAD 2.0 is a dataset that combines existing SQuAD data with over 50,000 unanswerable questions to test extractive reading comprehension systems' abilities to determine when no answer is supported, resulting in a challenging natural language understanding task for existing models that previously achieved only 66% F1 on SQuAD 2.0.

Jun, 2018

CoQA: 一项面向对话的问题回答挑战

本篇论文提出了一种建立对话式问答系统的新数据集 CoQA，包含来自七个不同领域的 8,000 个对话中 127,000 个具有答案的问题，分析表明，这些问题比现有的阅读理解数据集具有更多挑战性和难点，需要针对性的解决方案，评测结果显示目前最好的系统 F1 得分为 65.4％，仍然有大量的改进空间。

Aug, 2018

ProCQA：一个用于编程问答的大型基于社区的代码搜索数据集

基于检索的代码问答模型通过预训练模型使用构建的双模和单模数据集来匹配自然语言查询与相关代码片段。本文介绍了 ProCQA，一个从 StackOverflow 社区提取的大规模编程问答数据集，提供自然结构的混合模态问答对。为了验证其有效性，我们提出了一种模态不可知的对比预训练方法，以改善当前代码语言模型的文本和代码表示之间的对齐。与先前主要使用从 CodeSearchNet 中提取的双模和单模对进行预训练的模型相比，我们的模型在广泛的代码检索基准上表现出显著的性能改进。

Mar, 2024

CCQA：用于模型预训练的新型 Web 规模问答数据集

本文提出一种在 Common Crawl 项目的基础上，使用大规模、自然、多样化问答数据集进行领域内预训练的方法，该方法可以用于 open-domain question-answering 任务中的零样本、低资源和微调设置，展示了预训练在该任务中的潜力。

Oct, 2021

会话问答内容理解的实证研究

该论文研究基于对话问答模型中标准数据集对模型的语义理解能力的反应度以及对话内容对模型回答问题的影响，并指出了 QuAC 和 CoQA 两个常用数据集的一些潜在问题及其存在的偏见。

Sep, 2019

SQuAD: 文本机器理解 10 万 + 问题

本研究介绍了 Stanford Question Answering Dataset (SQuAD)，一种包含超过 100,000 个问题的阅读理解数据集，旨在研究回答这些问题所需要的类型推理方式，研究使用依赖和组成树建立了强大的逻辑回归模型，并在数据集上获得了 51.0% 的 F1 分数。

Jun, 2016

问答数据集让模型学到了什么？

本文通过评估五个数据集上的基于 BERT 的模型来研究模型是否从问答数据集中学习阅读理解，发现没有一个数据集能够具备全部实验的鲁棒性，并且发现了数据集和评估方法的不足，最后建议构建更好的 QA 数据集以评估阅读理解任务的问答能力。

Apr, 2020

CoSQA: 2 万 + Web 查询用于代码搜索和问题回答

通过引入 CoSQA 数据集，我们提出了一种名为 CoCLR 的对比学习方法，该方法的作用是作为一种数据增强器，以产生更多人工生成的训练实例，从而增强查询 - 代码匹配，实验表明，使用 CoSQA 进行训练可将代码问题回答的准确性提高 5.1％，并且使用 CoCLR 进一步提高 10.5％。

May, 2021