ProtoQA: 一个面向原型常识推理的问答数据集

May, 2020

ProtoQA: 一个面向原型常识推理的问答数据集

ProtoQA: A Question Answering Dataset for Prototypical Common-Sense Reasoning

Michael Boratko, Xiang Lorraine Li, Rajarshi Das, Tim O'Gorman, Dan Le...

TL;DR本文介绍了一个新的问答数据集，用于训练和评估人工智能系统在典型情况下的常识推理能力，数据集采用了家庭智慧问答秀中的问题集合，模型评估使用了生成式评估任务，并在多个基线模型中提出了挑战性的性能评估。结果表明，人类表现仍然超过模型成绩，支持任务的挑战性。

Abstract

Given questions regarding some prototypical situation such as Name something that people usually do before they leave the house for work? a human can easily answer them via acquired experiences. There can be multiple right answers for such questions, with some more common for a situation than others. This paper introduces a new →

common sense reasoning question answering dataset artificial intelligence family-feud evaluation metrics

发现论文，激发创造

CommonsenseQA：一个针对常识知识的问答挑战

该论文提出了一个常识问答的新数据集 ——CommonsenseQA，并采用了多个目标概念，旨在提高常识推理的难度，在使用 BERT-large 作为基线方法的情况下，最佳准确率为 56%。

Nov, 2018

现代问答数据集和基准：一项调查

本文调查了在深度学习时代发布的有影响力的问答数据集，并介绍了文本问答和视觉问答两个最常见的问答任务，涵盖了最具代表性的数据集，并提出了当前的一些 QA 研究挑战。

Jun, 2022

利用检索句子生成模板的方式提高无监督问答

我们提出了一种无监督训练 QA 模型的方法，该方法使用生成的伪数据训练，为 QA 训练生成问题，通过对相关检索到的句子应用简单模板，而非原始上下文句子来实现，从而使模型能够学习更复杂的上下文问题关系。使用这些数据训练 QA 模型可在 SQuAD 数据集上获得 14％的 F1 分数相对提高，并且在答案为命名实体时提高 20％，从而实现无监督 QA 的最新性能。

Apr, 2020

CCQA：用于模型预训练的新型 Web 规模问答数据集

本文提出一种在 Common Crawl 项目的基础上，使用大规模、自然、多样化问答数据集进行领域内预训练的方法，该方法可以用于 open-domain question-answering 任务中的零样本、低资源和微调设置，展示了预训练在该任务中的潜力。

Oct, 2021

A-OKVQA: 利用世界知识的视觉问答基准

介绍了 A-OKVQA 数据集，它包含了约 25000 个多样化的问题，需要广泛的常识和世界知识才能回答，相对于现有的基于知识的 VQA 数据集，这些问题通常不能通过简单地查询知识库来回答，而是需要对图像中所描绘的场景进行某种形式的常识推理，该数据集对几种最先进的视觉语言模型进行了基础性能测试。

Jun, 2022

通向可推广的神经符号共识问题回答系统

本文针对非萃取式常识问答（QA）这一具有挑战性的 AI 任务进行了探讨，对最近的常识 QA 方法、流行的知识资源和知识融合方法进行了系统分析，并研究了多个常识数据集上的基准测试。结果表明，注重知识融合的注意力注入方式似乎是一种较好的选择，并且知识库与数据集之间的领域重叠度对于确定模型的成功程度具有至关重要的作用。

Oct, 2019

利用生成 NQ 类问题来改进问答

本研究提出一种算法，利用数据集转换技术从长的 Trivia 问题转化为类似于日常人类交流的较短问题的方式，自动生成自然问题（NQ）数据集中的问题，同时使用神经分类器检测并去除不合法的问题，从而生成高质量的数据集，提高了 QA 表现，该算法在低资源环境下使用，扩展了 QA 系统的规模，同时保持了训练数据的质量。

Oct, 2022

PIQA：自然语言中关于物理常识的推理

本文提出了物理常识推理的任务以及相应的基准数据集 PIQA。我们指出现有的预训练模型在该领域的表现较差，探究了缺失的知识维度，并为未来的研究提供了机会。

Nov, 2019

CoQA: 一项面向对话的问题回答挑战

本篇论文提出了一种建立对话式问答系统的新数据集 CoQA，包含来自七个不同领域的 8,000 个对话中 127,000 个具有答案的问题，分析表明，这些问题比现有的阅读理解数据集具有更多挑战性和难点，需要针对性的解决方案，评测结果显示目前最好的系统 F1 得分为 65.4％，仍然有大量的改进空间。

Aug, 2018

SelQA: 基于选项的问答新基准

本篇论文提出了一个新的选择题型问答数据集 SelQA，该数据集通过众包生成问题，并从英文维基百科中提取十个最常见主题的长度为答案。我们介绍了一种语料库注释方案，旨在通过明确减少问题和答案之间的词共现来增强生成大型、多样化和具有挑战性的数据集的过程。在回答句子选择和回答触发任务上，我们比较了几个系统，为未来的工作提供了强有力的基准结果。

Jun, 2016