JEC-QA:一个法律领域的问答数据集
本文提出了 JaQuAD 数据集,它是一种由人类注释的日语问答数据集,用于非英语语言的 QA 任务的研究。该数据集由 39,696 个问题 - 答案对组成并且基于日本维基百科文章。我们针对基线模型进行微调,测试数据集上的 F1 得分为 78.92%,EM 为 63.38%。
Feb, 2022
为了增加推理能力,我们通过四个阶段的过程收集有超过 10,000 篇 CNN 新闻文章的人类生成的问题 - 答案对的数据集 NewsQA,该数据集超过 100,000 个 QA 对,由众包工人提供,答案包含想对应文章的文本内容片段。人类的表现比现有神经模型的性能更好,这表明未来的研究可以在 NewsQA 上取得显著的进展。
Nov, 2016
该研究旨在解决法律问答的问题,提供包括 14 个标准数据集和基于深度学习的法律问答模型在内的全面调查。该研究重点讨论了面临的挑战和不足,以及使用的不同方法和技术。
Apr, 2023
本研究提出了一种基于对话的问答数据集 QuAC,其包含 14K 个信息寻求问答对话(共 100K 个问题),并且 QuAC 针对其他机器理解数据集中未发现的挑战进行了改进。我们在详细的定性评估中表明,QuAC 的问题通常更具开放性、难以回答或仅在对话上下文中有意义,还报告了许多参考模型的结果,包括最近被扩展为对话上下文模型的最先进的阅读理解体系结构。但是我们最好的模型仍然比人类表现差了 20 个 F1,这表明还有很大的未来工作空间。
Aug, 2018
本研究介绍了一个含有近 10K 文档和近 50K 个问题及其答案的中国司法阅读理解 (CJRC) 数据集,基于 Bert 和 BiDAF 构建了两个强基准模型,实验结果显示与人工标注员的表现相比仍有进步的空间。该数据集可用于司法领域中元素提取的机器阅读理解技术研究。
Dec, 2019
该研究提出了一个名为 SearchQA 的数据集,该数据集用于机器理解和问答,并通过从 J! Archive 爬取的现有问题 - 答案配对及 Google 检索的文本片段进行扩充。在 SearchQA 中,包含了 14 万个问题 - 答案对,每个对平均包含 49.6 个片段。使用人类评估以及两种基准方法进行测试,研究显示了人类和机器表现之间的显著差距,表明所提出的数据集可作为问答的基准。
Apr, 2017
本研究介绍了 Stanford Question Answering Dataset (SQuAD),一种包含超过 100,000 个问题的阅读理解数据集,旨在研究回答这些问题所需要的类型推理方式,研究使用依赖和组成树建立了强大的逻辑回归模型,并在数据集上获得了 51.0% 的 F1 分数。
Jun, 2016
日本文献の質問応答 (JDocQA) は、PDF 形式の 5,504 の文書と日本語でアノテーションされた 11,600 の質問応答インスタンスから成る大規模な文書ベースの QA データセットであり、質問応答アプリケーションにおいて実用的な質問を提供するために回答不可能な質問を組み込んでいます。
Mar, 2024
TriviaQA 是一个具有挑战性的阅读理解数据集,包含超过 650k 个问题 - 答案 - 证据三元组,该数据集需要进行跨句子推理和包含看似复杂、组合式、句法和词汇变化巨大的问题,并提供了两种基线算法:基于特征的分类器和最先进的神经网络,它们在 SQuAD 阅读理解上表现良好,但都无法接近人类表现(23%和 40%与 80%),因此需要进一步的研究。
May, 2017