ProtoQA: 一个面向原型常识推理的问答数据集
该论文提出了一个常识问答的新数据集 ——CommonsenseQA,并采用了多个目标概念,旨在提高常识推理的难度,在使用 BERT-large 作为基线方法的情况下,最佳准确率为 56%。
Nov, 2018
本文调查了在深度学习时代发布的有影响力的问答数据集,并介绍了文本问答和视觉问答两个最常见的问答任务,涵盖了最具代表性的数据集,并提出了当前的一些 QA 研究挑战。
Jun, 2022
我们提出了一种无监督训练 QA 模型的方法,该方法使用生成的伪数据训练,为 QA 训练生成问题,通过对相关检索到的句子应用简单模板,而非原始上下文句子来实现,从而使模型能够学习更复杂的上下文问题关系。 使用这些数据训练 QA 模型可在 SQuAD 数据集上获得 14%的 F1 分数相对提高,并且在答案为命名实体时提高 20%,从而实现无监督 QA 的最新性能。
Apr, 2020
本文提出一种在 Common Crawl 项目的基础上,使用大规模、自然、多样化问答数据集进行领域内预训练的方法,该方法可以用于 open-domain question-answering 任务中的零样本、低资源和微调设置,展示了预训练在该任务中的潜力。
Oct, 2021
介绍了 A-OKVQA 数据集,它包含了约 25000 个多样化的问题,需要广泛的常识和世界知识才能回答,相对于现有的基于知识的 VQA 数据集,这些问题通常不能通过简单地查询知识库来回答,而是需要对图像中所描绘的场景进行某种形式的常识推理,该数据集对几种最先进的视觉语言模型进行了基础性能测试。
Jun, 2022
本文针对非萃取式常识问答(QA)这一具有挑战性的 AI 任务进行了探讨,对最近的常识 QA 方法、流行的知识资源和知识融合方法进行了系统分析,并研究了多个常识数据集上的基准测试。结果表明,注重知识融合的注意力注入方式似乎是一种较好的选择,并且知识库与数据集之间的领域重叠度对于确定模型的成功程度具有至关重要的作用。
Oct, 2019
本研究提出一种算法,利用数据集转换技术从长的 Trivia 问题转化为类似于日常人类交流的较短问题的方式,自动生成自然问题(NQ)数据集中的问题,同时使用神经分类器检测并去除不合法的问题,从而生成高质量的数据集,提高了 QA 表现,该算法在低资源环境下使用,扩展了 QA 系统的规模,同时保持了训练数据的质量。
Oct, 2022
本文提出了物理常识推理的任务以及相应的基准数据集 PIQA。我们指出现有的预训练模型在该领域的表现较差,探究了缺失的知识维度,并为未来的研究提供了机会。
Nov, 2019
本篇论文提出了一种建立对话式问答系统的新数据集 CoQA,包含来自七个不同领域的 8,000 个对话中 127,000 个具有答案的问题,分析表明,这些问题比现有的阅读理解数据集具有更多挑战性和难点,需要针对性的解决方案,评测结果显示目前最好的系统 F1 得分为 65.4%,仍然有大量的改进空间。
Aug, 2018
本篇论文提出了一个新的选择题型问答数据集 SelQA,该数据集通过众包生成问题,并从英文维基百科中提取十个最常见主题的长度为答案。我们介绍了一种语料库注释方案,旨在通过明确减少问题和答案之间的词共现来增强生成大型、多样化和具有挑战性的数据集的过程。在回答句子选择和回答触发任务上,我们比较了几个系统,为未来的工作提供了强有力的基准结果。
Jun, 2016