MS MARCO：人类生成的机器阅读理解数据集

Nov, 2016

MS MARCO：人类生成的机器阅读理解数据集

MS MARCO: A Human Generated MAchine Reading COmprehension Dataset

Payal Bajaj, Daniel Campos, Nick Craswell, Li Deng, Jianfeng Gao...

TL;DR介绍了一个大规模的机器阅读理解数据集 MS MARCO，由真实用户的查询日志中提取了 1010916 个问题和 8881823 个网页文本，并提供了三个任务用于评估及基准测试，即根据一些上下文语境回答问题、生成可理解的答案和给定问题评分。

Abstract

We introduce a large scale machine reading comprehension dataset, which we name MS MARCO. The dataset comprises of 1,010,916 anonymized questions---sampled from Bing's search query logs---each with a human generated answer and 182,669 completely human rewritten generated answers. In ad

machine reading comprehension ms marco dataset natural language answers question-answering benchmarking

发现论文，激发创造

S-Net：从答案抽取到答案生成的机器阅读理解模型

本文提出了一种新的机器阅读理解方法，使用抽取 - 综合框架来解决 MS-MARCO 数据集的问题，该方法使用先进的神经网络技术来构建具有单篇阅读理解的答案抽取模型，并使用序列到序列神经网络作为答案综合模型，实现了对多篇文献的问答。实验结果表明，这种方法的性能超过了现有的最佳方法。

Jun, 2017

NewsQA: 一个机器阅读理解数据集

为了增加推理能力，我们通过四个阶段的过程收集有超过 10,000 篇 CNN 新闻文章的人类生成的问题 - 答案对的数据集 NewsQA，该数据集超过 100,000 个 QA 对，由众包工人提供，答案包含想对应文章的文本内容片段。人类的表现比现有神经模型的性能更好，这表明未来的研究可以在 NewsQA 上取得显著的进展。

Nov, 2016

mMARCO：MS MARCO 段落排名数据集的多语言版本

该研究介绍了 mMARCO，使用机器翻译创建的包含 13 种语言的 MS MARCO 段落排名数据集的多语言版本，并评估了针对该数据集的多语言重新排名模型和稠密检索模型的效果。研究者们还在零 - shot 场景下使用 mMARCO 数据集微调了模型，在 Mr.TyDi 数据集上展示了多语言模型相对于仅使用英文原版的模型的更高效性。这个研究也表明，翻译质量的提高与检索效果相关，为提高多语版信息检索的效果提供了理论支持。

Aug, 2021

评估机器阅读理解数据集的基准测试能力

本篇研究提出了一种半自动化的消融实验方法，通过检查即使除去与语言理解相关的特征后是否仍然能回答问题，来评估语言理解能力挑战数据集的性能，实验结果表明，很多问题并不需要语法复杂的推理，为了精准评估 MRC 数据集，需要在设计时额外注意。

Nov, 2019

中文机器阅读理解的跨度抽取数据集

本文介绍了一个针对中文机器阅读理解的 Span-Extraction 数据集及其挑战集，共包含近 20,000 个人类专家在维基百科段落中标注的真实问题，并发布了 CMRC 2018 的评估工作坊，旨在进一步推进中文机器阅读理解研究。

Oct, 2018

首届中文机器阅读理解评测数据集

本文提出了一种新的中文阅读理解数据集 —— 包括选择题和用户问题阅读理解，并且是人工验证和隐藏测试集的大规模训练数据。同时，还举办了首届中文机器阅读理解评估（CMRC-2017），成功吸引了数十名参与者。

Sep, 2017

SQuAD: 文本机器理解 10 万 + 问题

本研究介绍了 Stanford Question Answering Dataset (SQuAD)，一种包含超过 100,000 个问题的阅读理解数据集，旨在研究回答这些问题所需要的类型推理方式，研究使用依赖和组成树建立了强大的逻辑回归模型，并在数据集上获得了 51.0% 的 F1 分数。

Jun, 2016

MCScript：一种基于剧本知识评估机器理解能力的新数据集

该研究介绍了一种大规模的、关于叙事文本及其相关问题的数据集，用于进行需要运用常识以及剧本知识推理的机器理解任务，该数据集与现有的类似数据集的区别在于，它侧重于关于日常活动的故事，并且其问题需要常识知识或者更具体地说是剧本知识来回答。通过众包策略收集数据，该数据集提供了实际推理方面的大量问题，并被用于 SemEval 2018 中的关于常识和剧本知识的共享任务，并为更广泛的自然语言理解社区提供了具有挑战性的测试用例。

Mar, 2018

KorQuAD1.0：针对机器阅读理解的韩文问答数据集

该研究介绍了韩语问答数据集（KorQuAD），这是一个用于机器阅读理解的大型韩语数据集，有助于自动回答语音机器人和自动化客户支持系统的开发。

Sep, 2019

带信息搜索代理的交互式机器阅读理解

通过重新设计现有的机器阅读理解数据集，将其转化为互动、部分可观察的环境，加入上下文命令并训练模型，有望将模型扩展到面向 Web 级别的 QA 场景。

Aug, 2019