NewsQA: 一个机器阅读理解数据集
本研究介绍了 Stanford Question Answering Dataset (SQuAD),一种包含超过 100,000 个问题的阅读理解数据集,旨在研究回答这些问题所需要的类型推理方式,研究使用依赖和组成树建立了强大的逻辑回归模型,并在数据集上获得了 51.0% 的 F1 分数。
Jun, 2016
该研究提出了一个名为 SearchQA 的数据集,该数据集用于机器理解和问答,并通过从 J! Archive 爬取的现有问题 - 答案配对及 Google 检索的文本片段进行扩充。在 SearchQA 中,包含了 14 万个问题 - 答案对,每个对平均包含 49.6 个片段。使用人类评估以及两种基准方法进行测试,研究显示了人类和机器表现之间的显著差距,表明所提出的数据集可作为问答的基准。
Apr, 2017
本篇论文提出了一种建立对话式问答系统的新数据集 CoQA,包含来自七个不同领域的 8,000 个对话中 127,000 个具有答案的问题,分析表明,这些问题比现有的阅读理解数据集具有更多挑战性和难点,需要针对性的解决方案,评测结果显示目前最好的系统 F1 得分为 65.4%,仍然有大量的改进空间。
Aug, 2018
TriviaQA 是一个具有挑战性的阅读理解数据集,包含超过 650k 个问题 - 答案 - 证据三元组,该数据集需要进行跨句子推理和包含看似复杂、组合式、句法和词汇变化巨大的问题,并提供了两种基线算法:基于特征的分类器和最先进的神经网络,它们在 SQuAD 阅读理解上表现良好,但都无法接近人类表现(23%和 40%与 80%),因此需要进一步的研究。
May, 2017
我们提供了一个名为 NewsQs (新闻提示) 的数据集,其中提供了多篇新闻文档的问题 - 回答对。通过在 News On the Web 语料库的 FAQ 样式新闻文章上对 T5-Large 模型进行微调,我们创造了 NewsQs,并自动生成了问题。我们证明,使用控制代码对模型进行微调可以生成更容易被人们接受的问题,与没有使用控制代码的相同模型相比,在人类评价中表现更好。我们使用与人类注释具有高相关性的 QNLI 模型来过滤数据。我们将我们的最终高质量问题、答案和文档聚类数据集作为资源,用于未来的基于查询的多文档摘要研究。
Feb, 2024
提出了 CodeQA,一个免费的自由格式问题回答数据集,旨在实现源代码理解:给定代码片段和问题,需要生成文本答案。包含 119,778 个 Java 问题 - 答案对和 70,085 个 Python 问题 - 答案对的 CodeQA 数据集。通过语法规则和语义分析将代码注释转换为问题 - 答案对。对数据集进行了系统分析,并展示了几个神经网络的实验结果。尽管关于问题回答和机器阅读理解的研究发展迅速,但很少有先前的工作关注代码问题回答。这个新数据集可以作为源代码理解研究的有用基准。
Sep, 2021
通过构建名为 LogiQA 的全面数据集,了解了人类逻辑推理能力方面的基本能力在机器阅读中如何得到充分研究。结果表明,最先进的神经模型远不及人类的水平。其数据集也可作为深度学习 NLP 环境下重新研究逻辑 AI 的基准。
Jul, 2020
本文提出了 JaQuAD 数据集,它是一种由人类注释的日语问答数据集,用于非英语语言的 QA 任务的研究。该数据集由 39,696 个问题 - 答案对组成并且基于日本维基百科文章。我们针对基线模型进行微调,测试数据集上的 F1 得分为 78.92%,EM 为 63.38%。
Feb, 2022
本研究提出了一种基于对话的问答数据集 QuAC,其包含 14K 个信息寻求问答对话(共 100K 个问题),并且 QuAC 针对其他机器理解数据集中未发现的挑战进行了改进。我们在详细的定性评估中表明,QuAC 的问题通常更具开放性、难以回答或仅在对话上下文中有意义,还报告了许多参考模型的结果,包括最近被扩展为对话上下文模型的最先进的阅读理解体系结构。但是我们最好的模型仍然比人类表现差了 20 个 F1,这表明还有很大的未来工作空间。
Aug, 2018