TWEETQA:一个以社交媒体为焦点的问答数据集
为了增加推理能力,我们通过四个阶段的过程收集有超过 10,000 篇 CNN 新闻文章的人类生成的问题 - 答案对的数据集 NewsQA,该数据集超过 100,000 个 QA 对,由众包工人提供,答案包含想对应文章的文本内容片段。人类的表现比现有神经模型的性能更好,这表明未来的研究可以在 NewsQA 上取得显著的进展。
Nov, 2016
本文调查了在深度学习时代发布的有影响力的问答数据集,并介绍了文本问答和视觉问答两个最常见的问答任务,涵盖了最具代表性的数据集,并提出了当前的一些 QA 研究挑战。
Jun, 2022
该研究提出了一个名为 SearchQA 的数据集,该数据集用于机器理解和问答,并通过从 J! Archive 爬取的现有问题 - 答案配对及 Google 检索的文本片段进行扩充。在 SearchQA 中,包含了 14 万个问题 - 答案对,每个对平均包含 49.6 个片段。使用人类评估以及两种基准方法进行测试,研究显示了人类和机器表现之间的显著差距,表明所提出的数据集可作为问答的基准。
Apr, 2017
本篇论文提出了一种建立对话式问答系统的新数据集 CoQA,包含来自七个不同领域的 8,000 个对话中 127,000 个具有答案的问题,分析表明,这些问题比现有的阅读理解数据集具有更多挑战性和难点,需要针对性的解决方案,评测结果显示目前最好的系统 F1 得分为 65.4%,仍然有大量的改进空间。
Aug, 2018
本研究提出一种算法,利用数据集转换技术从长的 Trivia 问题转化为类似于日常人类交流的较短问题的方式,自动生成自然问题(NQ)数据集中的问题,同时使用神经分类器检测并去除不合法的问题,从而生成高质量的数据集,提高了 QA 表现,该算法在低资源环境下使用,扩展了 QA 系统的规模,同时保持了训练数据的质量。
Oct, 2022
我们提供了一个名为 NewsQs (新闻提示) 的数据集,其中提供了多篇新闻文档的问题 - 回答对。通过在 News On the Web 语料库的 FAQ 样式新闻文章上对 T5-Large 模型进行微调,我们创造了 NewsQs,并自动生成了问题。我们证明,使用控制代码对模型进行微调可以生成更容易被人们接受的问题,与没有使用控制代码的相同模型相比,在人类评价中表现更好。我们使用与人类注释具有高相关性的 QNLI 模型来过滤数据。我们将我们的最终高质量问题、答案和文档聚类数据集作为资源,用于未来的基于查询的多文档摘要研究。
Feb, 2024
本文提出一个大规模的人工标注真实世界 QA 数据集 WebQA,通过序列标注模型将神经 QA 视为序列标注问题,与现有神经 QA 方法相比,性能大幅度提高,F1 得分为 74.69%。
Jul, 2016
这项工作通过提出一种新的任务,即自动化的质量分析和数据清洁来收集高质量的社交媒体问答数据集,并使用基于 BERT 的模型进行了评估。我们的最佳方法包括一个单任务模型和一个多任务模型,可以确定问题和响应的合理性,并提取回答。
Nov, 2020
本文提出了构建一种基于时间敏感的问答数据集,用于评估长文档 QA 系统的时间推理能力,针对现有的 QA 数据集缺乏时序问题的问题,展示出当前现有的 SoTA QA 系统(如 BigBird 和 FiD)对于时间推理的能力仍不完备,在此基础上提出将该数据集作为开发更加敏感于时间推理的 NLP 模型的基准测试。
Aug, 2021
本篇论文提出了一个新的选择题型问答数据集 SelQA,该数据集通过众包生成问题,并从英文维基百科中提取十个最常见主题的长度为答案。我们介绍了一种语料库注释方案,旨在通过明确减少问题和答案之间的词共现来增强生成大型、多样化和具有挑战性的数据集的过程。在回答句子选择和回答触发任务上,我们比较了几个系统,为未来的工作提供了强有力的基准结果。
Jun, 2016