谁做了什么：一个大规模的人以为中心的填空数据集

EMNLPAug, 2016

谁做了什么：一个大规模的人以为中心的填空数据集

Who did What: A Large-Scale Person-Centered Cloze Dataset

Takeshi Onishi, Hai Wang, Mohit Bansal, Kevin Gimpel, David McAllester

TL;DR本文介绍了一份新的 “谁做了什么” 数据集，其中包含了超过 200,000 个填空阅读理解问题，使用 LDC 英语千万字级新闻语料库构建。数据集具有多种新特性，例如使用两个独立的文章来形成问题，其中每个选项都是命名实体，问题已被筛选，以剔除人类可以轻松解决的问题。同时，对标准系统进行了性能基准测试，并将该数据集作为社区挑战任务提出。

Abstract

We have constructed a new "Who-did-What" dataset of over 200,000 fill-in-the-gap (cloze) multiple choice reading comprehension problems co

reading comprehension dataset fill-in-the-gap named entity benchmark

发现论文，激发创造

教师创建的大规模完形填空测试数据集

本篇论文提出了一种新的人造填空测试数据集 CLOTH，并测试了基于语言模型、自动化模型，和人类模型的表现，结果显示人类模型比基线模型优秀，并且分析了基线模型不足之处，发现理解长时期语境是关键瓶颈。

Nov, 2017

通过上下文线索找到沃尔多：去除偏见的沃尔多是谁

为 Person-centric Visual Grounding 任务设计自动化工具来去偏差，提出更实用的基准测试，以去偏差数据集的模型在去偏差测试数据集上优于模型在原始偏差（且更大的）训练数据集上表现，从而拓宽启发式方法和有监督方法之间的差距。

Mar, 2022

NewsQA: 一个机器阅读理解数据集

为了增加推理能力，我们通过四个阶段的过程收集有超过 10,000 篇 CNN 新闻文章的人类生成的问题 - 答案对的数据集 NewsQA，该数据集超过 100,000 个 QA 对，由众包工人提供，答案包含想对应文章的文本内容片段。人类的表现比现有神经模型的性能更好，这表明未来的研究可以在 NewsQA 上取得显著的进展。

Nov, 2016

谁是沃尔多？链接文本和图像中的人物

我们提出了一个任务和基准数据集，用于个体中心的视觉定位，这个问题是将标题中命名的人物与图像中出现的人物联系起来。为了鼓励方法关注上下文线索（如多个人之间的丰富互动），而不是学习名称和外观之间的关联，我们的新任务遮盖了标题中的人名。为了促进这个任务，我们介绍了一个新的数据集，谁是沃尔多，在维基共享资源的图像标题数据上自动挖掘。我们提出了一种基于 Transformer 的方法，在这个任务上优于几种强基线，并向研究社区发布我们的数据，以激发关注视觉和语言的上下文模型的工作。

Aug, 2021

WikiHow：一个大规模的文本摘要数据集

本研究介绍了一种基于在线知识库的数据集 WikiHow，包含超过 230,000 个文章和摘要对，用于评估现有的序列到序列模型在不同写作风格、更高语义抽象度的摘要中的性能。

Oct, 2018

电影问答：通过问题回答理解电影故事

MovieQA 数据集旨在评估从视频和文本中自动理解故事。该数据集包含大量关于 408 部电影的 14,944 个问题，是多种信息源的独特组合 —— 视频剪辑，情节，字幕，脚本和 DVS 等。研究人员对其进行了统计和方法分析，可扩展为现有 QA 技术，以展示具有这种开放式语义的问答是困难的。

Dec, 2015

IIRC：一个包含不完整信息阅读理解问题的数据集

本研究提供了一个名为 IIRC 的数据集，其中包含超过 13K 个来自英文维基百科段落的问题，并且这些问题只提供了部分信息以回答，丢失的信息出现在一个或多个链接的文档中。使用众包工作者编写问题，使得此数据集中的问题与答案出现的上下文表述差异大，包括许多需要离散推理的问题，难度较高。通过构建一种基准模型评测模型在该任务上的表现，本研究发现，该模型在 F1 得分上的表现为 31.1％，而人类性能则为 88.4％。

Nov, 2020

TriviaQA：一个大规模远程监督的挑战性阅读理解数据集

TriviaQA 是一个具有挑战性的阅读理解数据集，包含超过 650k 个问题 - 答案 - 证据三元组，该数据集需要进行跨句子推理和包含看似复杂、组合式、句法和词汇变化巨大的问题，并提供了两种基线算法：基于特征的分类器和最先进的神经网络，它们在 SQuAD 阅读理解上表现良好，但都无法接近人类表现（23％和 40％与 80％），因此需要进一步的研究。

May, 2017

Quasar: 通过搜索和阅读获取问题回答的数据集

该研究提出了两个数据集，用于评估自然语言查询的理解和从大量文本语料库中提取答案的系统。Quasar-S 数据集由 37000 个填空式查询构成，Quasar-T 数据集由 43000 个开放领域的问答问题和它们的答案组成。我们将这些数据集作为事实型问题回答的两个相关子任务的挑战，并评估了几个基线模型，并显示它们在 Quasar-S 和 - T 方面落后于人类表现 16.4％和 32.1％。

Jul, 2017

EduQG: 面向教育领域的多种格式多选数据集

本研究介绍了一个高质量的包含 3397 个样本的数据集，其中包含多项选择题、答案（包括干扰项）以及其来源文档，可用于问题与干扰项的生成以及探索新的挑战，同时伴随着 Bloom 的认知复杂性水平。所有问题均由专业人员生成以确保其符合教育及学习标准，该数据集对于教育域的研究和评估具有重要价值。

Oct, 2022