Qsnail:顺序问题生成的问卷数据集
本研究提出一种算法,利用数据集转换技术从长的 Trivia 问题转化为类似于日常人类交流的较短问题的方式,自动生成自然问题(NQ)数据集中的问题,同时使用神经分类器检测并去除不合法的问题,从而生成高质量的数据集,提高了 QA 表现,该算法在低资源环境下使用,扩展了 QA 系统的规模,同时保持了训练数据的质量。
Oct, 2022
我们提供了一个名为 NewsQs (新闻提示) 的数据集,其中提供了多篇新闻文档的问题 - 回答对。通过在 News On the Web 语料库的 FAQ 样式新闻文章上对 T5-Large 模型进行微调,我们创造了 NewsQs,并自动生成了问题。我们证明,使用控制代码对模型进行微调可以生成更容易被人们接受的问题,与没有使用控制代码的相同模型相比,在人类评价中表现更好。我们使用与人类注释具有高相关性的 QNLI 模型来过滤数据。我们将我们的最终高质量问题、答案和文档聚类数据集作为资源,用于未来的基于查询的多文档摘要研究。
Feb, 2024
本文介绍了 QASPER(一个基于自然语言处理论文的问题数据集),旨在提醒需要收集反映多部分论文主张的复杂推理难度的数据,以利于构建支持文档查找的问答系统。
May, 2021
本篇论文提出了一个新的选择题型问答数据集 SelQA,该数据集通过众包生成问题,并从英文维基百科中提取十个最常见主题的长度为答案。我们介绍了一种语料库注释方案,旨在通过明确减少问题和答案之间的词共现来增强生成大型、多样化和具有挑战性的数据集的过程。在回答句子选择和回答触发任务上,我们比较了几个系统,为未来的工作提供了强有力的基准结果。
Jun, 2016
本文提出一个大规模的人工标注真实世界 QA 数据集 WebQA,通过序列标注模型将神经 QA 视为序列标注问题,与现有神经 QA 方法相比,性能大幅度提高,F1 得分为 74.69%。
Jul, 2016
本文调查了在深度学习时代发布的有影响力的问答数据集,并介绍了文本问答和视觉问答两个最常见的问答任务,涵盖了最具代表性的数据集,并提出了当前的一些 QA 研究挑战。
Jun, 2022
这篇论文介绍了第一个面向社交媒体数据的自动问答系统大规模数据集,结果显示先前在形式文本上表现优异的神经模型在社交媒体文本上表现不佳,即使使用 fine-tuned BERT 模型,性能也远远落后于人类表现,因此有必要改进社交媒体文本问答系统。
Jul, 2019
为了增加推理能力,我们通过四个阶段的过程收集有超过 10,000 篇 CNN 新闻文章的人类生成的问题 - 答案对的数据集 NewsQA,该数据集超过 100,000 个 QA 对,由众包工人提供,答案包含想对应文章的文本内容片段。人类的表现比现有神经模型的性能更好,这表明未来的研究可以在 NewsQA 上取得显著的进展。
Nov, 2016
该研究提出了一个名为 SearchQA 的数据集,该数据集用于机器理解和问答,并通过从 J! Archive 爬取的现有问题 - 答案配对及 Google 检索的文本片段进行扩充。在 SearchQA 中,包含了 14 万个问题 - 答案对,每个对平均包含 49.6 个片段。使用人类评估以及两种基准方法进行测试,研究显示了人类和机器表现之间的显著差距,表明所提出的数据集可作为问答的基准。
Apr, 2017