MRQA 2019 共享任务：阅读理解通用性评估

EMNLPOct, 2019

MRQA 2019 共享任务：阅读理解通用性评估

MRQA 2019 Shared Task: Evaluating Generalization in Reading Comprehension

Adam Fisch, Alon Talmor, Robin Jia, Minjoon Seo, Eunsol Choi...

TL;DR在 Machine Reading for Question Answering (MRQA) 2019 shared task 中，我们通过将 18 个不同的 question answering 数据集调整并统一格式来评估阅读理解系统的泛化能力。参赛的 10 个团队尝试了不同的想法，如数据采样、多任务学习、对抗训练和集成学习等，在 12 个被隐藏的测试数据集上，最好的系统平均 F1 分数为 72.5，比基于 BERT 的初始得分高了 10.7 个绝对点。

Abstract

We present the results of the machine reading for question answering (MRQA) 2019 shared task on evaluating the →

machine reading question answering generalization capabilities reading comprehension systems shared task

发现论文，激发创造

MultiQA：阅读理解中泛化和迁移的实证研究

本文研究阅读理解（RC）数据集之间的通用性和现有数据集对提高新数据集表现的贡献，使用 Bert 等上下文表示方法，证明在一个或多个数据集上训练，并在目标数据集上进行转移学习可以显著提高 RC 表现，同时发现在多个来源 RC 数据集上训练可以降低新 RC 数据集的示例收集成本，并提出了基于 MultiQA 的模型，取得了五个 RC 数据集的最先进的表现。

May, 2019

问答数据集让模型学到了什么？

本文通过评估五个数据集上的基于 BERT 的模型来研究模型是否从问答数据集中学习阅读理解，发现没有一个数据集能够具备全部实验的鲁棒性，并且发现了数据集和评估方法的不足，最后建议构建更好的 QA 数据集以评估阅读理解任务的问答能力。

Apr, 2020

简单而有效的多段阅读理解

该论文旨在将神经段落级问题回答模型适应于以整个文档作为输入的情况，通过使用共享标准化训练目标，从多个段落中选择样本并鼓励模型产生全局正确的输出，该方法结合最先进的文档 QA 数据模型进行训练，实验证明了其在多个文档 QA 数据集上具有强大的性能表现，只需训练模型即可实现从 56.7 F1 到 71.3 F1 的大幅提高。

Oct, 2017

评估机器阅读理解数据集的基准测试能力

本篇研究提出了一种半自动化的消融实验方法，通过检查即使除去与语言理解相关的特征后是否仍然能回答问题，来评估语言理解能力挑战数据集的性能，实验结果表明，很多问题并不需要语法复杂的推理，为了精准评估 MRC 数据集，需要在设计时额外注意。

Nov, 2019

临床阅读理解：emrQA 数据集的全面分析

本论文深度分析医疗领域的机器阅读理解 (CliniRC) 任务，重点关注 emrQA 数据集的缺陷及性能，证明对于未来数据集的创建需考虑利用领域知识和通用性。

May, 2020

ReviewQA：一个基于关系和方面的意见阅读数据集

本文介绍了一种基于酒店评论的问题回答数据集 ReviewQA，旨在评估模型的关联理解和能力，并提供了几种基线模型的实现。

Oct, 2018

检索与阅读：信息检索和阅读理解的多任务学习

本研究提出一种简单而有效的方法，通过使用监督多任务学习，将 IR 和 RC 任务结合起来，以考虑答案跨度来训练 IR 组件，实现大规模机器阅读，从而取得了最先进的表现。

Aug, 2018

领域无关问答数据扩充及采样技术探究

研究提出了一个不依赖于特定领域的问答模型，并探讨了大型预训练语言模型、各种数据采样策略以及通过背景翻译生成的查询和上下文释义的相对优点。我们发现简单的负采样技术特别有效，即使它通常用于包括无法回答的问题（如 SQuAD 2.0）的数据集。当与域内采样结合应用时，基于 XLNet（Yang 等人，2019）的提交在 MRQA 领袖板竞赛中取得了第二名的准确匹配和 F1 得分。

Dec, 2019

TriviaQA：一个大规模远程监督的挑战性阅读理解数据集

TriviaQA 是一个具有挑战性的阅读理解数据集，包含超过 650k 个问题 - 答案 - 证据三元组，该数据集需要进行跨句子推理和包含看似复杂、组合式、句法和词汇变化巨大的问题，并提供了两种基线算法：基于特征的分类器和最先进的神经网络，它们在 SQuAD 阅读理解上表现良好，但都无法接近人类表现（23％和 40％与 80％），因此需要进一步的研究。

May, 2017

用于评估阅读理解系统的对抗样本

通过对斯坦福问答数据集（SQuAD）的对抗评估方案，测试阅读理解系统对插入的语义、语法错误的诈骗问题的正确性，从而提高模型对于语言的理解水平。

Jul, 2017