问答数据集让模型学到了什么？

EMNLPApr, 2020

What do Models Learn from Question Answering Datasets?

Priyanka Sen, Amir Saffari

TL;DR本文通过评估五个数据集上的基于 BERT 的模型来研究模型是否从问答数据集中学习阅读理解，发现没有一个数据集能够具备全部实验的鲁棒性，并且发现了数据集和评估方法的不足，最后建议构建更好的 QA 数据集以评估阅读理解任务的问答能力。

Abstract

While models have reached superhuman performance on popular question answering (QA) datasets such as SQuAD, they have yet to outperform humans on the task of question answering itself. In this paper, we investigate if models are learning →

question answering reading comprehension bert-based models qa datasets evaluation methods

发现论文，激发创造

基于 SQuAD 的神经问答模型比较分析

本文通过定量和定性分析现有端到端神经模型在斯坦福问答数据集上的结果，旨在理解和比较其特性，以迈向实现在多个领域中的泛化能力。研究发现，预测错误反映了某些模型特定偏差，本文对此进行了进一步讨论。

Jun, 2018

基于 Transformer 的语言模型在抽取式问答中的比较研究

本文旨在研究和比较不同的预训练语言模型在回答问题的能力上的表现，通过使用 Bert-BiLSTM 结构模型的效果来检验双向流的加入是否能够提高模型性能，并发现 RoBERTa 和 BART 表现最佳。

Oct, 2021

会话问答内容理解的实证研究

该论文研究基于对话问答模型中标准数据集对模型的语义理解能力的反应度以及对话内容对模型回答问题的影响，并指出了 QuAC 和 CoQA 两个常用数据集的一些潜在问题及其存在的偏见。

Sep, 2019

ReviewQA：一个基于关系和方面的意见阅读数据集

本文介绍了一种基于酒店评论的问题回答数据集 ReviewQA，旨在评估模型的关联理解和能力，并提供了几种基线模型的实现。

Oct, 2018

MRQA 2019 共享任务：阅读理解通用性评估

在 Machine Reading for Question Answering (MRQA) 2019 shared task 中，我们通过将 18 个不同的 question answering 数据集调整并统一格式来评估阅读理解系统的泛化能力。参赛的 10 个团队尝试了不同的想法，如数据采样、多任务学习、对抗训练和集成学习等，在 12 个被隐藏的测试数据集上，最好的系统平均 F1 分数为 72.5，比基于 BERT 的初始得分高了 10.7 个绝对点。

Oct, 2019

MultiQA：阅读理解中泛化和迁移的实证研究

本文研究阅读理解（RC）数据集之间的通用性和现有数据集对提高新数据集表现的贡献，使用 Bert 等上下文表示方法，证明在一个或多个数据集上训练，并在目标数据集上进行转移学习可以显著提高 RC 表现，同时发现在多个来源 RC 数据集上训练可以降低新 RC 数据集的示例收集成本，并提出了基于 MultiQA 的模型，取得了五个 RC 数据集的最先进的表现。

May, 2019

现代问答数据集和基准：一项调查

本文调查了在深度学习时代发布的有影响力的问答数据集，并介绍了文本问答和视觉问答两个最常见的问答任务，涵盖了最具代表性的数据集，并提出了当前的一些 QA 研究挑战。

Jun, 2022

让人沮丧地简单的自然问答

文章研究了问题回答领域（Question Answering）中各种算法模型以及增强数据方法，提出了基于 Attention-over-Attention 等方法的组合以及数据增强和集成策略，可在 SQuAD 等基准数据集上取得超人的表现。但在最新的自然问题基准数据集上，相对简单的 BERT 迁移学习方法取得了超过先前表现最优系统 1.9 F1 点的优异表现，并且添加集成策略进一步提高了 2.3 F1 点。

Sep, 2019

AmazonQA：一项基于评论的问答任务

该研究提出了基于评论的问答系统，并介绍了一个新的数据集和结合信息检索和阅读理解模型的方法以生成答案。研究评估了许多答案生成模型并提出了强有力的基线，证明了这个新任务的挑战性。

Aug, 2019

QUADRo: 问题 - 答案数据库检索的数据集和模型

本文提出了一种基于神经信息检索和重新排名的自动问答系统，利用包含 6.3M 问题和回答对的数据库，实现了开放域问答并超越了传统的非结构化文本或图形搜索方法，并证明了基于 Transformer 模型的 (q,a) 对比仅考虑问题表示更优，该方法具有和在 BING 搜索引擎上构建的 QA 系统竞争的优点。

Mar, 2023